AIGC 007-E4T基于编码器的域调优用于文本到图像模型的快速个性化！

作者：小小林熬夜学编程 | 2024-05-31 13:58:49

踩

文章目录

0 论文工作

这篇论文提出了一种使用领域特定编码器来快速将文本到图像模型适配到新领域的方案。这种被称为基于编码器的领域微调 (E4T) 的方法，专注于微调一个轻量级编码器，将领域特定的文本提示投影到与预训练文本到图像模型更一致的空间中。通过利用预训练的文本到图像模型，EDT 避免了训练整个模型，从而显著减少了训练时间和资源消耗。
文本到图像个性化的目的是教一个预先训练过的扩散模型对用户提供的新颖概念进行推理，并将它们嵌入到自然语言提示引导下的新场景中。然而，目前的个性化方法面临着漫长的培训时间、高存储需求或身份丢失的问题。为了克服这些限制，论文提出了一种基于编码器的域调优方法。该方法的关键见解是，通过对来自给定领域的大量概念进行欠拟合，用以改进泛化，并创建一个更易于快速添加新概念的模型相同的域。具体来说，使用了两个组件：首先，一个编码器，它将来自给定域的目标概念的单一图像作为输入，一个特定的面孔，并学习将其映射到一个表示该概念的单词嵌入中。第二，一组针对文本到图像模型的规则化的权重偏移量，用来学习如何有效地摄取额外的概念。这些组件一起被用于指导对看不见的概念的学习，允许只使用一张图像和多达5个训练步骤来个性化一个模型——加速个性化化n从几十分钟到几秒，同时保持质量。
这个方法有点像一个lora加textual-inversion.严格来说这些方法都是需要用a100起步的显卡来微调。相比之下lora和controlnet显得更加友好，在3090系显卡上就能玩转。虽然作者说他们的速度快了，但是前提是依赖性能优越的显卡。
论文链接

1 论文方法

EDT 包含两个主要部分：
领域特定编码器：这是一个轻量级的神经网络，经过训练将领域特定的文本提示投影到共享的嵌入空间中。编码器学习表示领域特定的词汇和概念，捕捉目标领域的独特特征。
冻结的文本到图像模型：使用一个预训练的文本到图像模型（例如 Stable Diffusion），不做任何修改。编码器的输出被用作冻结模型的输入，允许模型根据领域特定编码的文本提示生成图像。
训练过程涉及微调领域特定编码器，以最小化编码的文本提示与冻结文本到图像模型中的对应潜在表示之间的差异。
在这里插入图片描述
该方法有效地适应了预先训练好的扩散模型（中间）来处理新的概念。训练了两个组件，一个单词嵌入编码器（左）和权重偏移量（右）。编码器的预测是扩散模型嵌入空间中的一种新代码，它最好地描述了输入概念。此外，优化学习的权重偏移，使文本到图像模型专门化到目标领域（例如，猫）。偏移量是学习到的常数，通过一个神经网络进行正则化。在培训期间，使用

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/652695