赞
踩
该架构是基于DCGAN进行的,可以很清楚的看到在输入方面,是有一个噪声向量和表达文字的向量作为网络的输入,然后用网络全连接层对文本向量压缩,最后得到128维向量,在原来的随机噪声后面直接相连(concate)输入生成网络中生成图片。
对于判别网络呢,作者也加入了这个文本描述。加入的方式是空间复制,就是对于N*N的feature map后面加其他模态信息的时候用的方法。在判别网络中,首先对输入做几个stride=2的卷积,每个卷积都带有spatial batch normalization和leaky Relu。当feature map的大小变为2x2时,则又一次对文本编码结果通过一个全连接层,将全连接层的结果拼接到这个大小为2x2的feature map上。然后对拼接结果做一个1x1的卷积和2x2的卷积。这篇论文判别器中加入文本信息,目的是的判别器要判别出文字描述与图片是否相符
流形学习的观点是认为,我们所能观察到的数据实际上是由一个低维流形映射到高维空间上的。因为在一些高维中的数据会产生维度上的冗余,实际上只需要比较低的维度就能唯一地表示。首先流形能够刻画数据的本质。就像深度学习“特征学习”,所谓特征,就是能“表示事物本质的内容”,一般来说特征的维度应该小于数据本身,跟我们卷积得到特征也是小于数据本身的。如果我们能够模拟低纬度生成高纬度这个生成过程,再通过对低维流形的微调,应该能得到对应的“有意义且有道理”的高维数据。
对于根据描述去生成图片的问题,文本描述数量相对较少是限制合成效果(多样性)的一个重要原因。所以,论文提出通过简单的插值方法来生成大量新的文本描述。这些插值得到的embedding是无法直接对应到人工文本标注上的,所以这一部分数据是不需要标注的。想要利用这些数据,只需要在生成器的目标函数上增加上面那一项。
从上面实验结果可以看出,GAN和GAN-CLS生成的图像与文本内容比较接近,但是图片真实度不够。而GAN-INT和GAN-INT-CLS生成的图片虽然看上去更真实,但是可能只匹配部分文本信息。在花的数据集上的效果方法看上去效果都比较好,可能是因为对于D来说,鸟的结构比较强,更容易判断出假的图片。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。