赞
踩
Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors
公众号:EDPJ(添加 VX:CV_EDPJ 或直接进 Q 交流群:922230617 获取资料)
目录
最近的文本到图像生成方法提供了文本和图像域之间简单但令人兴奋的转换功能。 虽然这些方法逐渐提高了生成的图像保真度和文本相关性,但几个关键差距(限制了应用和质量)仍未得到解决。 我们提出了一种新颖的文本到图像方法,通过以下方式解决这些差距:(i)启用与场景形式的文本互补的简单控制机制,(ii)引入通过在关键图像区域(面部和显着物体)上采用特定领域知识来显着改善标记化过程的元素 ,以及(iii)把无分类器指导调整为 transformer 用例。 我们的模型实现了最先进的 FID 和人类评估结果,解锁了生成分辨率为 512*512 像素的高保真图像的能力,显着提高了视觉质量。 通过场景可控性,我们引入了几种新功能:(i)场景编辑,(ii)锚定场景文本编辑,(iii)克服分布外文本提示,以及(iv)故事插图生成 。
“诗人在能够用语言描述画家瞬间描绘的事物之前,会被睡眠和饥饿所征服。”
与达芬奇的这句话类似 [27],“一图胜千言” 的表达方式在不同的语言和时代中得到了重复[14,1,25],暗示从人的角度,图像比文本具有更强的表现力。 毫不奇怪,随着最近通过大型模型和数据集进行文本到图像建模的成功,文本到图像生成的任务越来越受到关注。 这种在文本和图像领域之间轻松架起桥梁的新功能使公众能够接触到新形式的创造力。
虽然当前的方法提供了文本和图像域之间的简单但令人兴奋的转换,但它们仍然缺乏几个关键方面:
在这项工作中,我们引入了一种新颖的方法,它成功地解决了这些关键差距,同时在文本到图像生成的任务中获得了最先进的结果。 我们的方法提供了一种与文本互补的新型控制,实现新一代功能,同时提高结构一致性和质量。 此外,我们提出与人类偏好相关的显式损失,显着提高图像质量,打破常见的分辨率障碍,从而产生分辨率为 512*512 像素的结果。
我们的方法由自回归 transformer 组成,除了传统使用文本和图像标记之外,我们还对从分割图派生的可选控制场景标记引入隐式条件。 在推理过程中,分割标记要么由 transformer 独立生成,要么从输入图像中提取,从而提供对生成图像施加额外约束的自由。 与许多基于 GAN 的方法 [24,62,42] 中采用的使用分割作为显式条件的常见做法相反,我们的分割标记提供了隐式条件,即生成的图像和图像标记不限于使用分割信息,因为将它们联系在一起没有损失。 在实践中,这有助于模型生成各种样本,从而产生受输入分割限制的不同结果。 我们展示了该方法除了可控性之外还提供的新功能,例如(i)复杂场景生成(图 1),(ii)分布外生成(图 3),(iii)场景编辑(图 4)和 (iv) 使用锚定场景进行文本编辑(图 5)。
虽然大多数方法依赖于与人类感知无关的损失,但这种方法在这方面有所不同。 我们使用两个改进的矢量量化变分自动编码器(Vector-Quantized Variational Autoencoders,VQ-VAE)对图像和场景标记进行编码和解码,并计算针对与人类感知和注意力相关的特定图像区域(例如面部和显着物体)的显式损失。 这些损失通过强调特定的感兴趣区域并以网络特征匹配的形式整合特定领域的感知知识来促进生成过程。
虽然一些方法依赖于图像重新排序来进行生成后图像过滤(例如利用 CLIP [44]),但我们将 [22, 41] 所建议的用于扩散模型 [53, 20] 的无分类器指导的使用扩展到 transformer, 消除了在生成后进行过滤的需要,从而产生更快、更高质量的生成结果,更好地遵循输入文本提示。
我们提供了大量的实验来确定我们的贡献的视觉和数字有效性。
深度生成模型的最新进展使算法能够生成高质量且自然的图像。
基于离散表示的图像生成模型 [59,45,47,12,13] 遵循两阶段训练方案。 首先,训练图像标记器来提取离散图像表示。 在第二阶段,生成模型在离散潜在空间中生成图像。
从分割图或场景生成图像可以被视为条件图像合成任务 [71,38,24,61,62,42]。 具体来说,这种形式的图像合成可以更好地控制所需的输出。
文本到图像生成 [64,72,54,65,67,45,12,41,70] 专注于从独立的文本描述生成图像。
我们的模型根据文本输入和可选的场景布局(分割图)生成图像。 正如我们的实验所证明的,通过以场景布局为条件,我们的方法提供了一种新形式的隐式可控性,提高了结构一致性和质量,并遵循人类偏好(根据我们的人类评估研究评估)。 除了基于场景的方法之外,我们还通过更好地表示标记空间来扩展我们提高总体质量和感知质量的愿望。 我们对标记化过程进行了一些修改,强调对人类视角中越来越重要的方面的认识,例如面部和显着物体。 为了避免生成后过滤,并进一步提高生成质量和文本对齐,我们采用无分类器指导。
接下来,我们详细概述所提出的方法,包括(i)场景表示和标记化,(ii)在具有显式损失的标记空间中关注人类偏好,(iii)基于场景的 transformer ,以及(iv)无分类器指导 transformer。 下面不对在此方法之前常用的方面进行详细说明,而所有元素的具体设置可以在附录中找到。
该场景由三个互补的语义分割组(全景、人类和面部)的联合组成。 通过组合三个提取的语义分割组,网络学习生成语义布局,并以此为条件生成最终图像。 因为场景组内类别的选择以及组本身的选择是人类偏好和感知的先验,所以语义布局以与人类偏好相关的隐式形式提供了额外的全局上下。 我们认为这种形式的调节是隐式的,因为网络可能会忽略任何场景信息,并生成仅以文本为条件的图像。 我们的实验表明文本和场景都牢牢地控制着图像。
为了创建场景标记空间,我们采用 VQ-SEG:一种用于语义分割的改进型 VQ-VAE,它建立在 [13]中用于语义分割的 VQ-VAE 的基础上。 在我们的实现中,VQ-SEG 的输入和输出是 m 个通道,表示所有语义分割组的类别数 m = m_p + m_h + m_f + 1,其中 m_p、m_h、m_f 分别是全景分割 [63]、人类分割 [35] 和用 [5] 提取的人脸分割的类别数。 附加通道是分隔不同类和实例的边缘图。 边缘通道为同一类的相邻实例提供分离,并强调具有高重要性的稀缺类,因为边缘(周长)比像素(区域)更不偏向于更大的类别。
当使用 transformer 生成图像时,我们观察到图像质量的固有上限,源于标记化重建方法。 换句话说,VQ 图像重建方法的质量限制转移为 transformer 生成的图像的质量限制。 为此,我们对分割和图像重建方法进行了一些修改。 这些修改是强调(特定区域感知)和感知知识(特定任务预训练网络上的特征匹配)形式的损失。
虽然使用场景作为附加形式的条件为人类偏好提供了隐式先验,但我们以附加损失的形式进行显式强调,显式针对特定图像区域。
我们在预先训练的人脸嵌入网络的激活上采用特征匹配损失,引入对人脸区域的 “感知” 和额外的感知信息,从而激励高质量的人脸重建。
在训练人脸感知 VQ(表示为 VQ-IMG)之前,使用为 VQ-SEG 提取的语义分割信息来定位人脸。 然后在人脸感知 VQ 训练阶段使用人脸位置:对每张来自真实图像和通过人脸嵌入网络重建的图像运行最多 k_f 个人脸。人脸损失可以表述如下:
其中索引 l 用于表示人脸嵌入网络 FE [6] 特定层的空间激活的大小,而求和则在大小为 112*112, 56*56, 28*28, 7*7, 1*1 的每个块的最后层上运行 (1*1 是最上面块的大小),
分别是图像中 k_f 个人脸中的 k 个重建和真实人脸裁剪,
是每个层归一化超参数,L_Face 是添加到 [13] 定义的 VQGAN 损失中的人脸损失。
在训练 VQ-SEG 网络时,我们观察到重建场景中表示面部部位(例如眼睛、鼻子、嘴唇、眉毛)的语义分割频繁减少。 这种效果并不奇怪,因为每个面部部分在场景空间中所占的像素数量相对较少。 一个简单的解决方案是采用更适合类别不平衡的损失,例如焦点损失(focal loss)[36]。 然而,我们并不希望提高稀有且不太重要的类别的重要性,例如水果或牙刷。 相反,我们(1)在分割面部部位类别上采用加权二元交叉熵面部损失,强调面部部位的更高重要性,以及(2)将面部部位边缘作为上述语义分割边缘图的一部分。 加权二元交叉熵损失可以表述如下:
其中 s 和 ^s 分别是输入和重建的分割图,α_cat 是每类别权重函数,BCE 是二元交叉熵损失,L_WBCE 是由 [13] 定义的添加到条件 VQ-VAE 损失中的加权二元交叉熵损失 。
我们概括并扩展了面部感知 VQ 方法,以提高对全景分割类别中定义为 “事物” 的对象的感知和感知知识。 我们没有使用专门的人脸嵌入网络,而是采用在 ImageNet [33] 上训练的预训练 VGG [52] 网络,并引入代表重建图像和地面实况图像的对象裁剪之间感知差异的特征匹配损失 。 通过对图像裁剪运行特征匹配,我们只需向 VQ-IMG 添加分别添加了额外的下采样和上采样层的编码器和解码器,就可以将输出图像分辨率从 256*256 提高。 与等式 1 类似,损失可以表述为:
其中,
分别是重建的和输入的对象裁剪,VGG^l 是预训练 VGG 网络中第 l 层的激活,
是每层归一化超参数,L_Obj 是等式 1 中定义的添加到 VQ-IMG 损失的对象感知损失。
该方法依赖于具有三个独立的连续标记空间(文本、场景和图像)的自回归 transformer,如图 6 所示。标记序列的组成:由 BPE [50] 编码器编码的 n_x 个文本标记组成,由 VQ-SEG编码的 n_y 个场景标记 ,以及由 VQ-IMG 编码或解码的 n_z 个图像标记。
在训练基于场景的转换器之前,使用相应的编码器提取与 [文本、场景、图像] 三元组相对应的每个编码标记序列,生成一个由以下部分组成的序列:
其中 i_x,i_y,i_z 分别为输入文本、场景和图像。
d_x 为输入文本序列的长度,h_y,w_y,h_z,w_z 分别是场景和图像输入的高度和宽度,BPE 是字节对编码(Byte Pair Encoding,BPE)编码器,t_x,t_y,t_z 分别是文本、场景和图像输入标记,t 是完整的标记序列。
受到无条件图像生成模型高保真度的启发,我们采用无分类器指导 [9, 22,44]。 无分类器引导是将无条件样本引导到条件样本方向的过程。 为了支持无条件采样,我们对 transformer 进行微调,同时以概率 p_CF 用填充标记随机替换文本提示。 在推理过程中,我们生成两个并行的标记流:一个以文本为条件的条件标记流,以及一个以用填充标记初始化的空文本流为条件的无条件标记流。 对于 Transformer,我们对 Logit 分数应用无分类器指导:
其中,Ø 是空文本流,logits_cond 是条件标记流输出的 logit 分数,logits_uncond 是无条件标记流输出的 logit 分数,α_c 是指导尺度,logits_cf 是用于采样下一个场景或图像标记的指导 logit 分数,T 是一个基于 GPT-3 [4] 架构的自回归 transformer 。 请注意,由于使用自回归 transformer,我们使用 logits_cf 进行一次采样并将相同的标记(图像或场景)提供给条件和无条件流。
我们的模型在基于人类和数值指标的比较中取得了最先进的结果。 图 2 提供了支持定性优势的样本。此外,我们还展示了该方法的新形式的可控性可能带来的新的创造能力。 最后,为了更好地评估每个贡献的效果,提供了一项消融研究。
使用 40 亿个参数 transformer 进行实验,生成 256 个文本标记、256 个场景标记和 1024 个图像标记的序列,然后将其解码为分辨率为 256*256 或 512*512 像素的图像(取决于选择的模型)。
基于场景的 Transformer 在 CC12m [7]、CC [51] 以及 YFCC100m [55] 和 Redcaps [10] 的子集上进行训练,总计 3500 万个文本图像对。 除非另有说明,否则使用 MSCOCO [37]。 VQ-SEG 和 VQ-IMG 在 CC12m、CC 和 MS-COCO 上进行训练。
文本到图像生成的目标是从人类的角度生成高质量且文本对齐的图像。 人们提出了不同的指标来模仿人类的观点,其中一些指标被认为比其他指标更可靠。 在评估图像质量和文本对齐时,我们认为人工评估是最高权威,并依靠 FID [19] 来增加评估可信度并处理人工评估不适用的情况。 我们不使用 IS [49],因为它不足以进行模型评估 [2]。
文本到图像生成的任务不包含绝对的基本事实,因为特定的文本描述可以应用于多个图像,反之亦然。 这限制评估指标评估图像的分布,而不是特定图像的分布,因此我们采用 FID [19] 作为我们的次要指标。
我们在可能的情况下使用 FID 指标和人工评估器 (AMT) 将我们的结果与几种最先进的方法进行比较。
表 1 中提供了使用以前的方法进行的人工评估。
FID 是根据 MS-COCO 验证集文本提示生成的 30k 图像子集计算得出的,无需重新排序,并在表 1 中提供。
仅依赖文本输入的方法更局限于在训练分布内生成,如 [41] 所示。
图 1、3、4、5 和附录中提供了我们的 256*256 和 512*512 模型的样品。 除了仅从文本生成高保真图像之外,我们还演示了场景式图像控制和保持各生成之间一致性的适用性。
我们引入了从现有或编辑的场景生成图像的新功能,而不是如 [45] 所示编辑图像的某些区域。 在图 4 中,考虑了两种情况。 在这两种情况下,语义分割都是从输入图像中提取的,并用于根据输入文本重新生成图像。
图 5 展示了对现有图像和场景生成新解释的能力。 从给定图像中提取语义分割后,我们根据输入场景和编辑的文本重新生成图像。
为了演示利用场景控制进行故事插图的适用性,我们编写了一个儿童故事,并使用我们的方法对其进行了插图。 在这种情况下,使用简单草图作为附加输入的主要优点是(i)作者可以将他们的想法转化为绘画或逼真的图像,同时不易受到文本到图像生成的 “随机性” 的影响,以及(ii)提高了各生成之间的一致性。
表 2 中提供了人类偏好和 FID 的消融研究, 评估我们不同贡献的有效性。
文本到图像领域出现了大量旨在提高生成图像的总体质量和对文本的遵守的新颖方法。 虽然一些方法提出了图像编辑技术,但进展通常不是为了实现新形式的人类创造力和体验。 我们试图将文本到图像的生成发展为更具交互性的体验,人们可以感知到对生成的输出有更多的控制,从而实现讲故事等现实世界的应用。 除了提高总体图像质量之外,我们还专注于改善我们认为对人类感知至关重要的关键图像方面,例如面部和显着物体,从而使我们的方法在人类评估和客观指标方面获得更高的青睐。
Gafni O, Polyak A, Ashual O, et al. Make-a-scene: Scene-based text-to-image generation with human priors[C]//European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022: 89-106.
本文提出了一种新颖的方法,用于解决文本到图像生成的几个问题:
场景表示和标记化。
面部感知矢量量化。在预先训练的人脸嵌入网络的激活上,采用真实人脸和通过人脸嵌入网络重建的人脸的特征匹配损失,引入对人脸区域的 “感知” 和额外的感知信息,从而激励高质量的人脸重建。
场景空间中的人脸强调。采用加权二元交叉熵面部损失,强调面部部位的更高重要性,从而避免重建场景中表示面部部位(例如眼睛、鼻子、嘴唇、眉毛)的语义分割频繁减少。
目标感知矢量量化。 采用预训练 VGG 网络,并引入代表重建图像和真实图像的对象裁剪之间的感知差异的特征匹配损失,以提高对全景分割类别中定义为 “事物” 的对象的感知和感知知识。
基于场景的 transformer。使用具有三个独立的连续标记空间(文本、场景和图像)的自回归 transformer 进行图像生成。
无分类器指导 transformer。
场景编辑。将 “天空” 和 “树” 类别替换为 “海洋”,将 “草”类别替换为 “沙子”,从而将场景从草地转换为沙滩。
分布外生成。生成现实中不存在的场景(例如,老鼠猎杀狮子)。通过使用在某些方面可能接近的类别(大象而不是老鼠,猫而不是狮子)进行替换来实现。
文本编辑和场景锚定。例如,基于文本引导的域自适应。
故事插图生成。 使用本文方法为故事生成插图。可使用简单草图作为附加输入,从而减少随机性,并提高生成一致性。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。