赞
踩
CogView整体的算法框架与DALL-E相比更为简洁,文本部分的token转换已经十分成熟,下文不再做进一步介绍;图像则是通过一个离散化的AE(Auto-Encoder)转换为token。文本token和图像token拼接到一起之后输入到GPT模型中生成图像。最后在处理文本图像生成类任务时,模型会通过计算一个Caption Score对生成图像进行排序,从而选择与文本最为匹配的图像作为结果。
摘要:
按照传统,文本到图像的生成一直专注于寻找更好的建模假设,以便能够在固定数据集上进行训练。这些假设可能涉及到复杂的架构、辅助损失或边信息(side information),比如训练过程中提供的物体部分标签或分割掩码。
我们基于transformer 描述了用于此任务的一种简单方法,该transformer 能够将文本和图像token自动回归建模为单个数据流。有了足够的数据和规模后,在零样本情况下进行评估时,我们的方法就可以与先前的特定领域建模(DSM)一争高下。。
1
引言
从文本到图像的现代机器学习合成方法始于Mansimov等人在2015年的研究工作,他们将Gregor 等人提出的用于生成图像标题的生成模型 DRAW 进行扩展,进一步生成新颖的视觉场景。2016年,Reed 等人证明,使用生成对抗网络(而不是使用递归可变自动编码器)可以提高图像逼真度。在同年的另一篇工作中,Reed 等人又证明,该系统不仅可以生成具有可识别属性的对象,还可以零样本泛化至留出(held-out)类别。
在接下来的几年里,研究人员又提出多种方法,推动了文本到图像生成领域的进展。比如,通过修改多尺度生成器来改进生成模型的架构;整合注意力和辅助损失;利用文本以外的其他条件信息资源。Reed等人[40]将文本嵌入作为额外的输入输入给生成器和判别器。StackGAN[51]将生成过程分解为一个草图精简过程。AttnGAN[48]使用对单词的关注来关注对应的子区域。ObjectGAN[27]按照文本→盒子→布局→图像的过程生成图像。DM-GAN[52]和DF-GAN[43]引入了新的架构,例如dianmic memory或deep fusionblock,以实现更好的图像精化。 尽管这些基于GAN的模型可以在简单和特定领域的数据集中进行合理的合成,例如Caltech-UCSD Birds 20
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。