木道寻08

这个屌丝很懒，什么也没留下！

热门标签

微软多模态大模型综述第三章图像生成

作者：木道寻08 | 2024-07-12 09:34:24

踩

微软多模态大模型综述

第三章 Visual Generation

Visual Generation指计算机视觉领域中，使用人工智能模型生成图片或视频的技术。

视觉生成的目标是生成高保真的视觉内容，包括图像、视频、神经辐射场、3D点云等。这个主题处于最近流行的AI生成内容（AIGC）的核心位置，这种能力在支持设计、艺术和多模式内容创作等创造性应用中至关重要。它还有助于合成训练数据，帮助理解模型，从而实现了多模式内容的理解和生成闭环。为了利用视觉生成，关键是生成与人类意图严格一致的视觉数据。这些意图作为输入条件（如类别标签、文本、边界框、布局掩码等）输入到生成模型中。考虑到开放式文本描述所提供的灵活性，文本条件（包括文本到图像/视频/3D）已成为条件视觉生成中的关键主题。

在本章中，我们将介绍如何在视觉生成中与人类意图保持一致，重点介绍图像生成。

我们在第3.1节中概述了文本到图像（T2I）生成的当前状态，强调了它在与人类意图保持一致方面的局限性。本章的核心内容是回顾关于四个目标领域的文献，这些领域旨在增强T2I生成中的对齐，即
3.2节中的空间可控T2I生成、
3.3节中的基于文本的图像编辑、
3.4节中更好地遵循文本提示，
3.5节中T2I生成中的概念定制。

在每一小节结束时，我们分享了我们对当前研究趋势和短期未来研究方向的观察。这些讨论在第3.6节中进行了汇总，我们在本章的结尾部分考虑了未来的趋势。具体而言，我们设想开发一种通用的T2I生成模型，该模型可以更好地遵循人类意图，统一并取代四个单独的对齐工作类别。

3.1 概述

3.1.1视觉生成中的人类对齐

在T2I生成背景下的人工智能对齐研究是专门研究开发图像生成模型的研究领域，这些模型可以轻松遵循人类意图来合成所需生成的可视内容。目前的文献通常关注普通T2I模型的某个特定弱点，该弱点阻碍了它们准确地生成与人类意图对齐的图像。本章深入探讨了四个常见的研究问题，如图3.1(a)所示，并依次介绍。

空间可控的文本到图像生成
文本是人与计算机交互的有力媒介，因此成为条件视觉生成中的焦点。然而，仅凭文本无法提供精确的空间参照，例如，具有精确空间配置的任意图像区域的开放式描述。空间可控的文本到图像生成（Yang等人，2023b；Li等人，2023n；Zhang和Agrawala，2023）旨在将文本输入与其他条件相结合，以实现更好的可控性，从而方便用户生成所需的图像。

基于文本的图像编辑
编辑是获取人类意图视觉内容的另一种重要手段。用户可能拥有近乎完美的图像，无论是通过模型生成的，还是通过相机自然捕捉的，但这些图像可能需要进行特定调整以满足他们的意图。编辑具有多种目标，从局部修改对象到全局调整图像样式。基于文本的图像编辑（Brooks等人，2023）探索了创建多功能编辑工具的有效方法。

更好的文本提示
尽管T2I模型被训练以根据成对的文本输入来重建图像，但训练目标并不一定确保或在图像生成过程中直接优化对文本提示的严格遵循。研究表明（Yu等人，2022b；Rombach等人，2022），普通的T2I模型可能会忽略某些文本描述，并生成与输入文本不完全对应的图像。沿着这一方向的研究（Feng等人，2022b；Black等人，2023）探索了改进措施，使T2I模型更好地遵循文本提示，从而方便T2I模型的使用。 视觉概念的定制
将视觉概念融入文本输入对于各种应用至关重要，例如在各种场景中生成宠物狗或家人的图像，或制作以特定人物为特征的视觉故事。这些视觉元素往往包含难以用言语表达的复杂细节。或者，相关研究（Ruiz等人，2023；Chen等人，2023f）探索是否可以通过定制T2I模型，使用专门的标记嵌入或条件图像来绘制这些视觉概念。

在详细介绍配准工作之前，我们首先在下一节回顾文本到图像生成的基本原理。

3.1.2 文本到图像生成

alt T2I生成旨在生成不仅视觉质量高而且语义上与输入文本对应的图像。T2I模型通常使用图像-文本对进行训练，其中文本作为输入条件，配对的图像作为目标输出。从图3.2中广泛的T2I模型中抽象出来，我们对代表性的图像生成技术进行了高度概述。
生成对抗网络（GAN）
GAN（Goodfellow et al.，2020；Creswell et al.，2018；Kang et al.，2023）由两个关键组件组成：生成器和判别器。该生成器的任务是从随机噪声输入中创建合成图像，并对其进行训练，以根据输入文本条件调整这些噪声输入，从而生成语义相关的图像。在这个对抗过程中，鉴别器与生成器竞争，试图区分合成生成的图像和真实图像，从而引导生成器提高其图像创建能力。

变分自编码器
变分自编码器（VAE）是一种概率模型，可以通过配对的编码器和解码器网络模块生成图像。编码器网络优化将图像编码为潜在表示的过程，而解码器则改进将抽样的潜在表示转换回新图像的过程。VAE通过最小化原始图像和解码图像之间的重构误差进行训练，同时使用Kullback-Leibler（KL）散度来规范编码的潜在空间。通过利用离散潜在空间进行向量量化，向量量化变分自编码器（VQ-VAE）进一步提高了VAE的性能，从而改善了解码质量和生成能力

离散图像令牌预测 该方法的核心在于一个组合的配对图像令牌器和detokenizer，如向量量化生成对抗网络(VQ-GAN)（Esser et al.，2021），其有效地将连续的视觉信号转换为有限的离散令牌集合。这样，图像生成问题就被转化为一个离散令牌预测任务。用于令牌预测的一种广泛使用的策略是使用自回归Transformer（Ramesh et al.，2021b；Yu et al.，2022b）来依次生成视觉令牌，通常从左上角开始，并逐行向右下角移动，以文本输入为条件。另外，研究（Chang et al.，2022，2023）还探索并行解码以加速令牌预测过程。最后，预测的视觉令牌被detokenized，最终形成图像预测。

扩散模型（Diffusion models）
扩散模型（Sohl-Dickstein et al.，2015；Song and Ermon，2020；Ho et al.，2020）使用随机微分方程将随机噪声演化为图像。扩散模型通过从一个完全随机的图像开始，然后在一个去噪过程中逐渐对其进行多次迭代细化。每次迭代都会预测并随后移除一个噪声元素，从而导致图像在给定输入文本的条件下不断演变。

我们以稳定扩散（SD）模型为例，详细解释文本到图像（T2I）模型的工作原理。我们选择这个模型的原因有很多。

首先，SD是使用最广泛的开源T2I模型之一，这使得它成为我们本章讨论的许多对齐技术的坚实基础。
此外，作为一种基于扩散的生成模型，它是一个极好的案例研究，用于介绍扩散模型。
最后，其基于交叉注意力的图像-文本融合机制是各种文本条件方法的经典示例，例如自回归T2I生成（Yu et al.，2022b），帮助我们深入理解T2I生成中的图像-文本交互。

稳定扩散模型（SD）及其学术版本潜在扩散模型（Rombach et al.，2022）主要包含三个模块，即图像变分自编码器、去噪U-Net和条件编码器，分别如图3.3的左、中、右部分所示。我们将按照原始潜在扩散论文（Rombach et al.，2022）中的符号，依次介绍每个模块和图像生成推理流程。

VAE
如上文所述，VAE模块包含配对的编码器E和解码器D，它们被训练成将RGB图像x编码为潜在的随机变量z，然后解码潜在变量以最好地重建图像。给定一个RGB图像x∈R（H×W×3），编码器E将其编码为连续的潜在表示z∈R（h×w×c）。在SD中，H=W=512，h=w=64，c=4，因此潜在变量z比图像x小48倍，从而通过在压缩的紧凑潜在空间中执行去噪过程显著提高了计算效率。
文本编码器
SD是一个条件图像生成模型，其中输入文本条件使用条件编码器τ进行编码。具体来说，SD使用ViT-L/14 CLIP文本编码器（Radford et al.，2021）将分词后的输入文本查询y编码为文本特征τ(y)∈R（N×dτ），其中最大长度N为77，文本特征维度dτ为768。
去噪U-Net 去噪U-Net是扩散图像生成过程的核心模块。该模块被训练成预测在每个去噪时间步t时，在潜在空间中需要减去的噪声εˆ(zt,t)，这样它就可以逐步将初始随机噪声演化为有意义的图像潜在。该模块使用预测噪声εˆ(zt,t)和目标噪声ε之间的L2损失进行训练，目标噪声ε是由VAE编码器E编码的目标图像潜在。在推理时，从随机噪声开始，通过迭代去噪潜在z，将其送入VAE解码器D以生成最终生成的图像。

3.2 Spatial Controllable Generation

T2I的生成采用开放式文本，供用户进行描述，但仅使用文本不足以进行某些类型的描述，例如空间指称。空间可控性的研究旨在探索以额外的空间输入为条件生成图像。

我们把这类研究分为三个主题:

(i) 图像级文本描述-->区域级文本描述 (ii)从boxes到密集空间约束如2D矩阵，比如分割mask，边缘图像，深度图像，关键点图像.我们回顾代表工作ControlNet。（iii）前面两种需要对T2I模型微调以理解额外的空间约束，所以我们回顾了无需微调的模型--推断期间指导生成。

区域级控制生成

大模型在生成高分辨图像取得成功。但是模型缺乏空间控制如精准控制特地区域生成。如图3.4所示，这些研究探索对于任意区域的额外的输入条件，增强全局图像生成T2I模型。这需要模型理解空间输入。

ReCo（Yang等人，2023b）是这一方向上最具代表性的工作之一。其核心思想是扩展文本编码器E的文本词汇，并对不同的tokens进行安排以表示基于图像的文本输入。该研究使用额外的位置tokens增强使用预训练的T2I模型理解的文本tokens，这些位置tokens表示量化后的空间坐标。如图3.4所示，位置tokens（例如，<687>，<204>，<999>，<833>）与文本tokens无缝混合，作为空间修饰符操作，指示后续文本仅对指定空间区域起作用，例如“棒球运动员......运动衫”。然后，对预训练的T2I模型进行微调以支持这种新的输入接口，从而促进区域可控的T2I生成。

ReCo与其他沿此方向的方法一样，讨论了区域控制T2I生成在提高与人类意图的匹配方面的几个优点：(i)基于区域的文本提供了额外的输入条件，允许用户轻松指定所需的图像，即在特定位置具有自由形式的区域描述。盒子令牌和输入序列设计允许用户使用与查询T2I模型相同的用户界面生成基于区域的文本，使扩展易于使用。(ii)附加的区域级控制文本有助于更好地生成具有正确对象数量、空间关系和区域属性（如颜色/大小）的图像，否则这些属性可能会使原始T2I模型感到困惑（Rombach等人，2022）。(iii)研究还观察到更好的图像生成质量，并推测基于区域的文本提供了对象级图像-文本关联，从而简化了学习过程。

GLIGEN（Li等人，2023n）是另一项代表性的工作。与通过扩展输入tokens并微调整个T2I模型来生成基于区域的描述不同，GLIGEN使用了一种插接式方案：冻结原始T2I模型的参数，并训练额外的门控自注意力层来学习新的区域化技能。区域化tokens携带两种类型的信息：需要基于的文本单词的语义表示和它们的空间配置。然后，通过新添加的门控自注意力层将这些区域化tokens添加到预训练的T2I模型中，所有剩余的预训练参数保持冻结。该层配备一个门控参数，该参数初始化为零，允许预训练模型逐步纳入基于区域的文本输入。GLIGEN促进了各种类型的基于区域的控件，包括边界框区域化、关键点区域化、图像提示，以及其他类型的位置对齐密集条件。

密集型控制

除了空间坐标，还存在其他通常表示为2D数组的空间条件，例如分割掩码、边缘图和深度图。ControlNet（Zhang和Agrawala，2023）是将这些密集空间控制结合到T2I模型中的突出示例。ControlNet建立在Stable Diffusion之上，并引入了一个额外的可训练ControlNet分支，该分支为文本提示添加了额外的输入条件。这个额外的条件可以是Canny边缘图、霍夫线、HED边界、下素描、人体姿态图、分割掩码、深度图像、法线图或线条图，每个条件都有其独特的模型副本。添加的分支初始化为SD的U-Net中预训练的下采样块。该分支采用额外的视觉潜在变量和额外的密集条件作为输入。在将输入密集条件与视觉潜在变量合并并将ControlNet分支的输出合并回SD的上采样块之前，有一个独特的零初始化的1 × 1卷积层。该层作为一个门控连接器，以逐渐将额外条件注入到预训练的Stable Diffusion模型中。有了额外的密集空间控制，ControlNet提供了一个有效的生成可控性通道。

后续研究如Uni-ControlNet（Zhao等人，2023b）和UniControl（Qin等人，2023a）通过统一输入条件进一步改进了ControlNet，使得单个模型可以理解多种输入条件类型，甚至可以接受两种条件的组合。密集控制和相应生成图像的示例请参见图3.5。此外，Disco（Wang等人，2023f）说明了ControlNet在生成人类舞蹈视频方面的效率，其目标生成具有可控制元素（如人类主体、视频背景和动作姿势序列）的视频。该研究成功地分离了背景和人类姿势条件，它们被输入到ControlNet的两个不同分支中，这两个分支分别以图像帧和姿势图为条件。这种从所有三个条件中分离出来的控制使得Disco能够实现高保真度的人前景和背景。更重要的是，它使得人类主体、背景和舞蹈动作的任意组合成为可能。

推理时间空间引导

上述工作需要模型训练，无论是T2I模型还是用于理解额外空间条件的附加模块。另一种方法是，一些研究（Bansal等人，2023；Chen等人，2023e）探索在不需要额外模型训练的情况下，为T2I模型提供推理时间空间引导。核心思想类似于分类器引导（Dhariwal和Nichol，2021），该方法采用鉴别器损失来引导扩散过程，具体如下：

alt 以空间控制为例，判别器可以是一个Faster-RCNN目标检测器（Ren等人，2015），用f表示，其在中间估计图像zˆ0上运行，并使用所需布局c计算目标检测损失l，以指导εˆ(zt , t)的生成。s(t)是引导强度。这种方法可以在T2I生成中实现空间控制而不进行额外的训练，其定性结果如图3.6所示。然而，其可能不会产生与微调方法（Yang等人，2023b；Li等人，2023n；Zhang和Agrawala，2023）一样精确的结果。
alt

总结和趋势

早期关于空间可控生成的研究，如布局到图像和蒙版到图像的生成，通常是与T2I的生成并行处理的。然而，随着先进的大型T2I模型的涌现，如本节所述的近期研究正在倾向于将空间条件与文本条件相结合。我们确定了将空间条件整合到T2I模型中的两个主要趋势。首先，区域可控的T2I生成，如ReCo，通过用位置令牌扩大文本词汇来合并空间坐标控制。其次，从ControlNet扩展的研究将额外的“图像类”条件整合到T2I框架中，从而捕获了广泛的各种密集条件。未来，T2I模型可能有一个微调阶段，使其能够理解图像和文本输入。在这种情况下，可以通过文本纳入盒状坐标，而密集控制可以作为图像输入提供。我们将在第3.5节中探讨和阐述这一想法。

3.3 Text-based Editing

文本到图像编辑是从给定图像和输入文本描述中合成新图像的过程。与完全从头开始生成图像不同，用户可能已经拥有一个令人满意的起点，这可能是先前使用T2I模型生成的图像或自然图像。目标是保留大部分视觉内容，只修改特定组件。这可能涉及到改变局部物体或整体图像样式，以精确匹配用户的意图。这种基于文本的编辑方法为用户提供了一种工具，可以从先前的图像中生成新图像，在创建准确遵循人类意图的视觉内容方面发挥关键作用。

基于文本的编辑具有各种不同的定义和任务设置。我们介绍以下代表性工作。
(i)一个经典的编辑场景是改变图像的局部区域，例如移除或改变物体或向特定区域添加物体。根据用户生成的掩码在图像生成中空间地操纵潜在的是一种简单但有效的方法(Avrahami等人，2022b，a；孟等人，2021)。研究表明，操纵图像文本交叉注意力掩码对于空间编辑也是有效的(Balaji等人，2022；Hertz等人，2022)。
(ii)从描述空间区域中期望外观的语言输入扩展来看，语言也可以用作编辑指令来告诉机器做什么(Kawar等人，2023；Brooks等人，2023)，比如“将图像中的物体A更改为物体B”。
(iii)编辑系统不是扩展单个T2I模型进行编辑，而是整合不同的专业模块，如分割模型(Kirillov等人，2023；Zou等人，2023b)和大语言模型(Brown等人，2020；OpenAI，2023a)(Wu等人，2023a)。

扩散过程操作

扩散图像生成中的多步骤去噪过程自然地支持一定程度的图像编辑。随机差分编辑（Stochastic Differential Editing, SDEdit）(Meng等人，2021)表明，首先向输入图像添加噪声进行编辑，然后对样本进行去噪，可以产生有意义的编辑。混合潜在扩散（Blended Latent Diffusion，Avrahami等人，2022a）表明，通过操纵扩散过程，可以使用用户生成的物体掩码mlatent实现局部物体编辑。在每个扩散步骤中，潜在变量z是前景和背景潜在变量的空间混合：z = zfg ⊙ mlatent + zbg ⊙ (1 − mlatent)，其中zfg是从文本描述生成的编辑后的物体，zbg是添加了噪声的原始背景图像。

然而，对混合空间潜在变量的使用存在一定的限制。首先，要求人类生成掩码可能并不总是可行的。其次，生成过程有时会在边缘产生伪影。研究人员不满足于简单地在空间上混合潜在变量，转而深入研究图像文本交叉注意力图以寻找物体编辑的线索。具体来说，Prompt2Prompt（Hertz等人，2022）发现交叉注意力层控制视觉区域和文本单词之间的相互作用。基于这一观察，该研究为扩散T2I模型生成的图像提供了三种编辑类型，包括单词交换、添加新短语和注意力重新加权，每种编辑类型都通过在图像文本交叉注意力图上进行相应的操作得以实现。具体来说，Prompt2Prompt跟踪由原始提示（即Mt）和编辑提示（即Mt）生成的交叉注意力图，并使用预定义规则将注意力图合并为新的注意力图Mt，用于潜在计算。例如，在添加新短语时，Mt保持不变以保留原始提示中存在的单词。它只整合修改后的注意力图Mt以表示在原始提示中不存在的单词。编辑的定性结果如图3.7所示。

alt 除了编辑合成的图像，Imagic（Kawar等人，2023）还探索了对真实自然图像进行编辑。核心思想是将要编辑的图像表示为文本嵌入，并将此嵌入与描述所需图像的目标文本嵌入混合。这种混合确保了产生的图像保留了来自原始图像的元素，同时与目标文本提示中详细描述的美学一致。在实践中，需要使用测试时间微调来生成高质量的图像

文本指令编辑 alt

用户直接使用语言指定编辑指令，例如图3.8中的“用玫瑰花替换向日葵”，可能比在文本提示中重复图像的可视内容更有效。所需的文本指令编辑模型应该适用于由模型生成的图像和自然图像，并适用于不同类型的编辑指令。

InstructPix2Pix（Brooks等人，2023）旨在接受图像和文本编辑指令以产生输入图像的编辑版本。目标是训练一个能够理解此类编辑文本指令的图像到图像模型。为了实现这一点，T2I模型可以被适当地接受额外的图像输入，通过将更多的输入通道集成到SD的卷积层中。然而，主要的挑战在于如何生成配对的编辑数据。如图3.9所示，Instruct-Pix2Pix（Brooks等人，2023）提议使用一个语言模型（LMM）来生成一对编辑指令和从原始输入标题中编辑出来的标题，例如“have her ride a dragon”，“photograph of a girl riding a dragon”，和“photograph of a girl riding a horse”。该研究接着使用Prompt2Prompt（Hertz等人，2022）将原始的和编辑过的标题对转换成一对GPT生成的编辑指令之前的和之后的图像。该研究生成了超过45万样本以训练编辑模型。这种数据生成方法随后在如CM3Leon（Ge等人，2023）等研究中被用于训练通用图像-文本-图像模型。

使用外部预训练模型进行编辑
此外，最近的研究表明，将外部语言和视觉模型融入编辑过程比仅依靠单一模型更有效。通用分割模型（如SAM（Kirillov等人，2023）和SEE- M（Zou等人，2023b））的进步为使用分割模型来为基于文本的编辑区域奠定基础铺平了道路。代表性作品包括Instruct X-Decoder（Zou等人，2023a）、Grounded SAM inpainting（Liu等人，2023h）、Inpaint anything（Yu等人，2023c）等。另一个新兴趋势是通过大语言模型进行各种生成和编辑工具的分配。VisualChatGPT（Wu等人，2023a）等研究可以解决复杂的视觉编辑问题，需要多个生成和编辑模型在多个步骤中进行合作。

总结和趋势

基于文本的编辑模型在能力上取得了重大进展，从而提高了编辑质量，扩大了领域覆盖范围，并提供了更灵活的用户界面。例如，早期的研究要求用户生成物体编辑的掩码，而最近模型可以在没有掩码输入的情况下对合成生成的图像起作用，甚至可以直接理解一般的文本编辑指令。展望未来，我们期望有一个全包容性的生成基础模型，能够同时处理图像和文本输入。在这个框架内，编辑指令将是文本输入的一种特殊形式，与T2I生成中的图像描述无缝集成。

3.4 Text Prompts Following

使用图像-文本对进行训练可以鼓励T2I模型生成在语义上与输入文本条件相对应的图像。然而，图像生成训练目标并不会直接强制生成的图像严格遵循文本提示。一些研究表明（Feng等人，2022b；Chefer等人，2023），T2I模型可能无法遵循文本提示，特别是在图像描述变得复杂的时候。例如，某些名词短语可能会被省略，属性可能会被错误地应用到错误的物体上，生成的图像可能具有错误的物体数量、关系、样式等。这些局限性促使人们努力改进T2I模型以更好地遵循文本提示。

相关文献可以大致分为两大类。（i）推理阶段的操作。在推理阶段，潜在和注意力调整（Liu等人，2022a；Feng等人，2022b；Chefer等人，2023；Agarwal等人，2023）设计出各种方法来重新分配视觉潜在或图像-文本交叉注意力，使得文本提示中的所有名词短语都在生成的图像中得到体现。（ii）对齐调整。学习额外的模型学习阶段（Black等人，2023；Fan等人，2023b），通常以图像-文本相似度作为奖励，使得调整后的T2I模型可以更好地遵循文本提示。

推理阶段的操作
使用图像-文本对进行训练并不能保证T2I模型始终遵循文本提示。可能存在多个差异，尤其是在文本描述冗长复杂的情况下。例如，T2I模型可能会将属性应用于错误的实体或漏掉某些对象，如图3.10所示。直观地说，在推理阶段解析文本查询并明确地强制T2I模型更加关注每个名词短语可以生成更好地遵循文本提示的图像。

根据文本提示调整模型

人们可能会想，我们是否可以通过对预训练的T2I模型进行细化来更好地遵循文本提示。实现这一目标的一个有希望的方法是强化学习，使用图像-文本相似度作为奖励，而不是在主要的T2I训练中使用图像生成目标。这使得模型能够被优化以更好地对齐图像和文本。

沿着这个方向的一项工作是去噪扩散策略优化（DDPO）（Black等人，2023），其调整框架如图3.12所示。具体来说，使用一个视觉语言模型（Li等人，2023e）将生成的图像转换为文本描述。生成的标题与输入文本提示进行比较，通过BERTScore（Zhang等人，2019）的使用得出相似度奖励。相似度奖励然后用于微调预训练的T2I模型，使模型可以更好地遵循文本提示。图3.12的底部显示了基于相似度的训练过程中生成样本的进展。此外，值得注意的是，其他人类意图也可以被格式化为模型调整的奖励，例如可压缩性、美观度等。

总结和趋势

在这一部分，我们介绍了旨在提高T2I模型更好地遵循文本提示的能力的研究。尽管推断时间操作取得了良好的性能，但对齐调整提供了更直观的用户体验，消除了对额外修改的需求。与指令调整大型语言模型以对齐人类意图进行文本生成类似，TI2模型调整的目标类似，但关注图像生成。我们预见在不久的将来出现类似的范式用于生成T2I基础模型开发。具体而言，初始训练阶段仍然依赖于现有的大规模数据上的图像生成目标，而随后的对齐调整阶段增强模型对提示的遵守和人类意图的其他方面，例如减少有害内容。当前的基于强化学习的方法显示出潜力，但它们通常专注于单个优化目标。未来的研究可以扩展这些方法以实现更适应的对齐调整，与适应不同图像和文本场景的特征相结合。

3.5 Concept Customization

尽管语言是表达人类意图的强大媒介，但在全面描述用于重建的视觉概念的所有细节方面却效率低下。例如，使用文本描述我的宠物狗或家庭成员的足够细节，以便它们可以在不同的视觉场景中生成，这具有挑战性。在这些应用中，通过图像输入直接扩展T2I模型以理解视觉概念是更好的选择。

我们考回顾了关于视觉概念定制的相关研究，这些研究为用户提供了生成这些个性化概念的能力。
(i)早期的研究(Gal等人，2022；Ruiz等人，2023；Wei等人，2023)从单个概念的定制开始，涉及到通过测试时间的微调将多个视觉概念的图像编码成一个新的令牌嵌入，这样学到的嵌入就可以在T2I生成过程中用来指代这个概念。

(ii)多概念定制(Kumari等人，2023；Avrahami等人，2023a)允许多个概念标记从T2I模型的标记词汇表中扩展出来，使得多个概念可以在生成过程中相互作用以及与剩余的视觉场景相互作用。

(iii)测试时间微调要求用户针对每个新概念定制T2I模型。

为了简化使用，一些研究(Chen等人，2022f；Shi等人，2023a；Chen等人，2023f；Yang等人，2023a)探索无需测试时间微调的定制，并使用统一的微调阶段来扩展T2I模型以接受图像条件输入。这些模型将视觉概念的图像作为额外的输入条件，并按照文本描述生成带有视觉概念的图像。

单一概念定制
视觉概念定制的目标是使T2I模型能够理解针对非常特定的情况定制的其他视觉概念。文本倒置（Gal等人，2022）中研究的问题设置涉及将少数图像中的视觉概念翻译成独特的标记嵌入。如图3.13左侧所示，T2I模型处理了一个不同犬种的四幅图像，随后学习了一个新标记的嵌入，表示为[V]。这个[V]标记可以用作表示这只特定狗的文本标记。[V]代币可以与其他文本描述无缝集成，以在各种情境中呈现特定的狗，例如游泳、在桶里和理发。

Gal et al. (2022) 的 Textual Inversion 方法通过 prefix tuning 学习 [V] token 的嵌入，即冻结所有 T2I 模型的参数，并训练 [V] token 来生成输入图像。后来的研究表明，调整更多的模型参数可以显著提高图像生成的质量。然而，只调整输入图像可能会导致 T2I 模型过度拟合特定概念，并失去生成多种图像的能力。例如，模型可能无法生成各种类型的狗。为了解决这个问题，Dreambooth (Ruiz et al., 2023) 提出了类特定的先验保留损失（class-specific prior preservation loss）。该方法的核心是使用预训练的 T2I 模型来生成与目标定制概念同类的图像。然后，模型在输入图像（带有 [V] token）和模型生成的图像（没有 [V] token）上进行联合微调。这样可以确保模型能够区分独特的“[V] dog”和其他它最初训练的一般狗，从而保持其整体的 T2I 能力。Dreambooth 然后微调所有 T2I 模型的参数，并实现更好的图像生成质量。

多概念定制

基于专注于学习单个视觉概念[V]的研究，最近的研究已经深入探讨了将多个视觉概念整合到一个单一的文本到图像（T2I）模型中的可能性，表示为[V1]、[V2]等等。Custom Diffusion（Kumari等人，2023）采用了模型权重的选择性子集，特别是从文本到潜在特征的关键和值映射，在交叉注意力层中进行概念定制，从多个概念图像集合中学习。该研究有助于将多个定制的视觉概念嵌入到单个文本提示中。Break-A-Scene（Avrahami等人，2023a）探索了从单个图像中提取多个视觉概念。该研究使用分割掩码增强输入图像，以精确定位目标概念，然后将其转换为一系列概念嵌入，表示为[Vi]。

无需测试时间微调的定制化

虽然上面描述的概念定制研究已经实现了良好的视觉质量，但测试时间微调的必要性阻碍了其在实际场景中的应用。大多数最终用户和应用平台缺乏微调所需的计算资源，更不用说微调过程的复杂性了。这自然引出了一个问题：我们能否将概念图像作为输入条件，无需微调就能实现概念定制？

该想象系统的输入/输出格式类似于检索增强生成（retrieval-augmented generation）（Chen等人，2022f），其目的是通过以检索到的相似图像为条件来简化图像生成过程。该系统支持包含与生成过程相关的信息的额外图像输入。在训练阶段通过改变条件图像，模型可以潜在地实现广泛上下文学习功能，生成与给定输入示例对齐的图像。与此框架一致，SuTI（Chen等人，2023f）训练单个模型来模仿微调后的特定主题专家，并生成以文本和主题输入图像为条件的图像，如图3.14所示。因此，训练后的模型可以在上下文中执行概念定制化而无需测试时间微调，并且可以泛化到未见过主题和描述的情况。另一项并行工作InstantBooth（Shi等人，2023a）也展示了在生成不仅与语言对齐而且保留身份的图像方面取得了显着的成果，只需一次前向传播。

总结和趋势

视觉概念定制领域已经从测试阶段的微调嵌入发展到直接使用冻结模型进行上下文图像生成。包含附加图像输入的上下文生成管道显示出在现实世界应用中的显著潜力。在本小节中，我们探索了这种方法的两个应用：通过检索相关图像来促进生成（Chen等人，2022f），以及通过将条件应用于主题图像来个性化视觉概念（Chen等人，2023f；Shi等人，2023a）。一个令人感兴趣的方向是统一描述性文本指令指导的各种图像输入的使用。我们将在下一小节中详细阐述这个想法。

3.6 Trends: Unified Tuning for Human Alignments

在前面的子部分中，我们介绍了与调整T2I模型以更准确地符合人类意图相关的文献。这包括增强空间可控性、编辑现有图像以改善对齐、更有效地遵循文本提示，以及针对新视觉概念对T2I模型进行个性化。这些子主题中观察到的一个趋势是，向需要最少特定问题调整的综合对齐解决方案转变。沿着这个方向，我们设想未来的T2I模型具有一个统一的的对齐调整阶段，将预训练的T2I模型转化为更密切符合人类意图的模型。这样的模型可以无缝地处理文本和图像输入，无需针对不同对齐挑战定制多个模型即可生成所需的视觉内容。

与LLM开发中人类意图对齐调整的既定做法相似，我们预计本部分中讨论的技术将合并成一个整体的第二阶段，用于生成基础模型的开发。这种对齐调整阶段有两个主要目的。首先，它扩展了T2I的文本输入，包括交错的图像-文本输入，如图3.15所示。其次，它通过使用旨在与人类期望对齐的数据、损失和奖励来微调使用图像生成损失训练的基础T2I模型。

统一的图像和文本输入：

我们从讨论界面统一开始。具体来说，我们的目标是将T2I模型的文本输入演变为一个多模态界面，该界面可以无缝地整合图像和文本输入。如图3.15所示，我们考虑三种类型的输入：内容文本输入描述要生成的视觉场景；图像输入容纳密集的2D输入，如图像和密集条件；指令文本输入解释如何集体组成输入的内容文本和图像，作为生成的条件。

如第一行所示，Vanilla T2I模型接受图像描述的“内容文本输入”，并生成相应的图像。对于第3.2节中的空间可控生成，可以通过扩展文本单词来指定额外的空间条件，或者通过将密集的空间条件作为图像输入来通过图像输入进行指定。对于第3.3节中的基于文本的编辑，我们检查文本指令编辑的有效性，该任务微调T2I模型以理解操纵图像输入并相应地改变其像素值的编辑指令文本。对于第3.5节中的视觉概念个性化，现在无训练模型可以理解个性化指令，从图像输入中提取视觉概念，并将概念与上下文文本输入结合起来生成图像。

结合输入接口的三个要素，设想的对齐调谐T2I模型可以处理第3.2-3.5节中描述的所有先前任务。它的行为由特定的文本指令控制，这些指令规定了图像和文本输入应如何作为生成条件被联合处理。给定相同的图像输入，不同的文本指令可以调用不同的任务：“生成具有相同布局的猫图像”用于空间控制，“改变狗的颜色”用于编辑，“生成相同的狗睡觉”用于概念定制，以及现有模式的任意混合。在生成基础模型中实现这样一个统一的接口可能是可能的，通过对包含来自各种任务的数据的合并数据集进行训练，与在LLM中观察到的监督指令调优的成功相似。此外，从处理单个图像-文本对过渡到处理交错的图像-文本对，可以实现更有趣的功能，如上下文视觉演示（Sun等人，2023b）。另一个有趣的方向是构建一个生成模型，该模型能够从任何输入模式的组合中生成输出模式的任何组合，如语言、图像、视频或音频，如可组合扩散（CoDi）（Tang等人，2023b）中所示。

使用对齐损失和奖励进行调整

除了统一的输入接口外，另一个值得考虑的要素是对齐损失和奖励。如第3.4节所述，基于图像-文本对的图像生成损失使模型能够生成与目标数据分布相匹配的图像。然而，它并不总是与人类意图完全对齐，这让人想起LLM训练中的语言模型损失，需要单独的对齐调整阶段（Ouyang等人，2022）。最近在监督指令调整和人类反馈方法的强化学习（Black等人，2023）在图像生成方面的成功提供了类似的对齐调整工具，可以在生成基础模型中进行有效利用。未来的探索中一个有趣的话题是如何平衡不同的目标损失和奖励，例如共同优化更高的美学分数、更好的图像-文本对齐、更少的恶意内容、更强的指令依从性以及许多其他期望的属性。

多模态内容理解和生成闭环的集成

展望未来，一个充满希望的研究方向是多模态内容理解和生成之间的闭环集成。初步研究表明，使用合成数据从理解中受益（Li等人，2023a；He等人，2022b），反之亦然。一个令人兴奋的前景是开发一个图像-文本输入、图像-文本输出的基础模型，用于理解和生成任务。理想的平衡以及实现这种平衡的最有效方法是未来探索的目标。

微信公众号

如果你觉得本文对你有帮助，欢迎关注微信公众号--计算机视觉前沿，获取更多精彩。

本文由 mdnice 多平台发布

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/木道寻08/article/detail/813359