赞
踩
链接: [link]https://arxiv.org/pdf/1605.05396.pdf
Scott Reed, Zeynep Akata, Xinchen Yan, Lajanugen Logeswaran
Bernt Schiele, Honglak Lee
通过文本描述性语言获得可以用来可视化且有辨别度的特征向量
生成网络用G来表示:RZ x RT -> RD,判别网络用D来表示:RD x RT -> {0,1}。其中T是文本嵌入向量的维度,D是图片的维度,Z是噪音的维度。
工作过程是:
生成器:将文本通过编码器变为嵌入向量 ψ(t) 先后经过全连接层压缩为128维向量,再经过leaky-ReLU激活函数,最后与噪音z(z ~N(0,1))在depth方向上concatenated,经由反卷积网络生成合成的图片x
判别器:将生成的图片x 和文本嵌入向量 ψ(t) 作为输入,对x进行下采样为4 x 4 x channel,而将ψ(t)通过压缩为N维(文中没给)再经过空间复制为4 x 4 x N(ψ(t)也是经过全连接层后在通过激活函数),再将其concatenated,接着用filter大小为1 x 1但数量未知的卷积核融合提取特征,最后再用4 x 4 的卷积核计算最后的得分。注意到批度归一化用在所有的卷积层中。
就是在原本只有两种输入:real-images with matching text 和 synthetic images with arbitrary text 情况下再加入第三种输入:real images with mismatched text,且判别器必须能够判别为假并给出得分。这种做法有利于提高判别器的判别能力即能够评估由G生成的图片能否满足条件(嵌入向量)的约束。具体的算法流程如下:
为了提高生成图片的质量,我们可以对描述文本进行流型插值。因为深度网络展示出在嵌入向量对之间学习其对应的表示时,嵌入向量趋向于靠近数据域。通俗的讲就是运用流型插值后的文本送入生成器G生成的图片的风格样式会比较接近真实图片,此时再用real-image with matching text 训练网络时,生成的图片将更加与描述性文本匹配,相当于增加了训练样本的数量。例如有两个文本:天上有只黑色的鸟在飞 和 地上有只黑色的乌龟在爬。经过流型插值后,可能会生成一个这样的新文本:天上有只黑色的乌龟在爬行。尽管不真实的描述,但对于训练生成器G来说,有一部分是对的,那么生成的图片就会有点真实,至少风格样式不会相差太远,相当于增加了样本数量。这样的话生成器的目标函数变为:
t1 和 t2 分别表示不同的文本嵌入向量,此时β取固定值0.5。
如果文本嵌入向量 ψ(t) 能够很好的捕获图片的内容(例如花的颜色和形状),此时为了更好的生成图片,name噪音 z 应该能够捕获图片的风格样式(例如背景颜色或者目标姿势)。换句话说我们能不能让 z 在所需要的风格样式的图片分布中?怎样才能让 z 处于这样的分布中呢?论文中提出使用一个风格编码(style encoder)器:
S 是风格编码器网络,使用一个已经训练过的生成器G 和风格编码器,就可以生成一个在文本描述条件下的图片,且具有特定的风格:
用GAN-INT-CLS算法的实验结果
更多的算法原理和实验细节及结果可看原文。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。