赞
踩
文本生成图像简要回顾text to image
https://blog.csdn.net/mohole_zhang/article/details/89374420
文本生成图像论文与代码汇总:
目录
描述性的文本生成一张与文本内容对应的图像。
主流方法有下面这几种,但目前主流方法是GAN的方法。
基本流程均为,先用自然语言处理技术提取出文本信息,然后再用文本特征作为后面生成图像的约束。在GAN中生成器Generator根据文本特征生成图片,继而被鉴别器Discriminator鉴定其生成效果。
Generative Adversarial Text to Image Synthesis,Reed, S., Akata, Z., Yan, X., Logeswaran, L., Schiele, B., & Lee, H. (2016, May 18).
论文地址:
https://arxiv.org/abs/1605.05396
Reed et al自2016年提出了GAN-INT-CLS模型以来,GAN模型用来由文本生成图像成为主流。
https://www.jianshu.com/p/1515958fd82a
https://blog.csdn.net/stdcoutzyx/article/details/78575240
作者用了自己之前的方法《Learning Deep Representations of Fine-Grained Visual Descriptions》 来提取句子信息。
文本描述量,用于描述文本的张量。GAN的生成器阶段和判别器阶段都有输入。
生成器的输入为文本的张量和随机噪声。判别器输入是生成的图像和文本的张量。
论文中用到了两个判别器,GAN-CLS与GAN-INT
用于判别图片是否按照了文本的要求进行生成。
为了使判别模型能够拥有判断文本与图像是否匹配的能力,
前两个生成合理图像,第三个与第二个判别对相比,生成匹配描述。这样,判别器就能将是否合理图片和是否匹配的信号都传递给生成器了。
数据集中每张图片对应了五个描述
一次选batch个图片进行训练,对每个图片进行以下操作
1.对于图片给出的描述编码
2.任意一个不正确的描述也编码
3.随机选择噪声向量
4.将噪声连接描述升入到生成器中
5.这时,利用3种 描述-图像对, <假图,描述> <真图,描述> <真图,不匹配描述>
6.判别器的损失函数,更新判别器。第十行
7.生成器的损失函数,更新生成器。第十二行
深度学习网络在文本领域证明了文本embedding的线性插值是比较接近文本的流形的。即两个代表不同意义的句子A和B,A和B中间意思的的句子C的embedding会和A和B分别的embedding的均值比较接近。
那么就意味着将不同的随机向量和文本进行组合,可以得到不同风格的图像。
为了验证这一想法,先将G倒转学习到一个从图像到随机向量的映射S。在做风格转换的时候,首先使用S提取风格图像的风格信息到一个向量a,然后将向量a和文本进行组合输入给生成器得到某风格下的图像。
论文中提到的融合两个文本的公式:
风格迁移:
CUB数据集是花,Oxford-102数据集是鸟。可以看到生成较为逼真。
在花的实验上,普通的GAN容易生成比较多样性的结果。
花的实验效果比鸟的要好,原因可能在于不同的鸟类之间差别比较大,容易被D区分出来,导致D提升有限,从而限制了G的提升。
左侧是保持随机向量不变,两段不同的文本做插值,可以看到从左到右,逐渐接近第二句的效果。右侧是保持文本不变,两个随机向量做插值,可以看到,生成的物体没有变化,而背景却在发生渐变。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。