赞
踩
从给定的文本描述生成图像有两个目标:视觉真实感和语义一致性。在本文中,我们提出MirrorGAN。MirrorGAN利用了通过重新描述学习文本到图像生成的思想,由三个模块组成:语义文本嵌入模块(STEM)、用于级联图像生成的全局-局部协作关注模块(GLAM)和语义文本再生和对齐模块(STREAM)。
STEM:生成词级和句子级嵌入。
GLAM:利用局部词注意和全局句子注意,逐步增强生成图像的多样性和语义一致性。
STREAM:从生成的图像中重新生成文本描述,该图像在语义上与给定的文本描述保持一致。
本文贡献:
1.提出MirrorGAN:用于用于T2I和I2T一起建模的GAN。
2.提一个全局-局部协作关注模型,该模型无缝嵌入到级联生成器中,以保持跨域语义一致性并平滑生成过程。
3.除了视觉真实感对抗性损失:用于区分图像在视觉上是真实的还是虚假的
文本图像配对语义一致性对抗性损失:确定底层图像和句子语义是否一致。
还提出基于ce的文本语义损失:给定的文本描述之间的底层语义保持一致。
1.CycleGAN:我们专门解决T2I问题,而不是图像到图像的翻译。文本和图像之间的跨媒体领域差距可能比具有不同属性的图像之间的差距要大得多;MirrorGAN采用镜像结构,而不是CycleGAN的循环结构。
通过RNN从给定的文本描述T中提取词嵌入w和句子嵌入s
为了减少语义相似性,使用Fca得到增强的句子嵌入
首先通过感知层Ui−1将嵌入词w转换为视觉特征的底层公共语义空间为Ui−1w。然后乘以用视觉特征fi−1得到注意力得分。最后,通过计算注意分数与Ui−1w的内积得到注意词-上下文特征
增强的句子向量sca首先通过感知层Vi−1转换为视觉特征的底层公共语义空间Vi−1sca。然后,将其与视觉特征fi−1进行逐元素相乘,得到注意力得分。最后,通过计算注意分数和Vi−1sca的逐元素乘法得到注意句子-上下文特征
fi:每个阶段的视觉特征
Ii:生成的图像
Sca代表增强的句子嵌入
z代表随机噪声
F0,F1...Fm-1代表m个视觉特征transformer;G0,G1,...Gm-1代表图像生成器
Fatti代表全局-局部协同注意模块,包含Attwi−1和Attwi−1两个部分
图像编码器是在ImageNet上预训练的卷积神经网络(CNN)[11][5],解码器是RNN[12]
、
将Im-1输入到CNN编码器,得到x-1
We:表示一个词嵌入矩阵,它将词的特征映射到视觉特征空间。
x-1:是一种视觉特征,在开始时用作输入,告知RNN图像内容。
Pt+1:是单词的预测概率分布。
视觉真实感对抗性损失:用于区分图像在视觉上是真实的还是虚假的
文本图像配对语义一致性对抗性损失:确定底层图像和句子语义是否一致。
基于ce的文本语义重建损失:给定的文本描述之间的底层语义保持一致。
消融实验
MirrorGAN成功地利用了通过重新描述学习文本到图像生成的思想。STEM生成词级和句子级嵌入。GLAM采用从粗到细的级联架构生成目标图像,利用局部词注意和全局句子注意,逐步增强生成图像的多样性和语义一致性。STREAM通过从生成的图像重新生成文本描述来进一步监督生成器,该图像在语义上与给定的文本描述保持一致。我们展示了MirrorGAN在两个基准数据集上实现了新的最先进的性能。
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。