赞
踩
Textual Inversion模型:将独特的对象注入新场景,将它们转换成不同的风格,转移姿势,减少偏见,甚至想象新产品。
inversion反演:使用生成网络操作图像通常需要找到给定图像的相应潜在表示,这一过程称为反演。
在 GAN 文献中,这种反转是通过基于优化的技术或使用编码器来完成的。 优化方法直接优化潜在向量,这样通过 GAN 将其输入将重新创建目标图像。编码器利用大型图像集来训练将图像映射到其潜在表示的网络。
因此,文章通过在预训练的文本到图像模型的文本嵌入空间中查找新词来克服这些挑战:仅使用用户提供的概念(例如对象或风格)的 3-5 个图像,我们学习通过冻结文本到图像模型的嵌入空间中的新“单词”来表示它。这些“词”可以组成自然语言句子,直观地指导个性化创作。
模型中文本反演的架构设计:
由于上述过程只是在SD的子模块text_encoder中的token embedding部分通过训练增加了pseudo word的嵌入向量,其他模块均保持不变,所以训练速度超快,效果也很明显。
LDM 由两个核心组件组成:
模型采用 Rombach 等人公开的 14 亿参数文本到图像模型,它是在 LAION-400M 数据集上进行预训练的。
模型的文本嵌入端采用的是BERT文本编码器。输入字符串中的每个单词或者子单词都被转换为一个标记,它是某个预定义字典中的索引。然后,每个标记都链接到一个唯一的嵌入向量,可以通过基于索引的查找来检索该嵌入向量。这些嵌入向量通常作为文本编码器 cθ 的一部分进行学习。
Textual Inversion选择这个嵌入空间作为反演的目标。具体来说,指定一个占位符字符串 S* 来表示希望学习的新概念。对嵌入过程进行干预,并用新的、学习过的嵌入 v* 替换与标记化字符串相关的向量,本质上是将概念“注入”到词汇中。通过这样做,可以组成包含该概念的新句子,就像使用任何其他单词一样。
为了找到这些新的嵌入,模型使用一小组图像(通常是 3-5 张),它们描述了跨多种设置(例如不同的背景或姿势)的目标概念。我们通过直接优化找到 v*,通过最小化从小集合中采样的图像上等式的 LDM 损失。为了调节生成,我们随机采样源自 CLIP ImageNet 模板的中性上下文文本。其中包含“S* 的照片”、“S* 的演绎”等形式的提示。优化目标可以定义为:
文本反演可用于使用单个pseudo word来创建对象的变体。它能够使用单个词的嵌入来捕捉对象更加精细的细节。
文本反演可以通过将学习到的pseudo word与新的条件文本相结合来创建新颖的场景。我们可以从上图 中生成的图像看到,利用的pseudo word和新条件文本中的语义概念可以创建新的场景。由于SD中的UNet是使用预先训练好的大规模文本到图像模型建立的,因此一个通过学文本反演学习好的嵌入可以在不同扩散模型中重复使用。
文本反演可以用于风格迁移,用户可以在其中绘制特定艺术家的独特风格,并将其应用到新的创作中。文本反演模型也能得到表示特定未知风格的pseudo word。我们可以为该模型提供一小组具有共同风格的图片,并用 "A painting in the style S* "来替换训练文本。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。