英伟达推出免训练，可生成连贯图片的文生图模型ConsiStory，生成角色一致性解决新方案_consistory nvidia

作者：AllinToyou | 2024-05-02 06:45:43

踩

consistory nvidia

目前，多数文生图模型皆使用的是随机采样模式，使得每次生成的图像效果皆不同，在生成连贯的图像方面非常差。

例如，想通过AI生成一套图像连环画，即便使用同类的提示词也很难实现。虽然DALL·E 3和Midjourney可以对图像实现连贯的生成控制，但这两个产品都是闭源的。

因此，英伟达和特拉维夫大学的研究人员开发了免训练一致性连贯文生图模型——ConsiStory。（即将开源）

论文简介

论文的核心内容是介绍了一个名为ConsiStory的文本到图像生成模型，该模型能够在无需额外训练的情况下生成连贯的图像序列。

ConsiStory模型主要解决了两个问题：一是识别和定位图像中的共同主体，二是在不同图像中保持主体的视觉一致性。为了实现这些目标，ConsiStory采用了主体驱动自注意力（SDSA）和特征注入等核心模块。

ConsiStory模型可以作为一种插件，帮助其他扩散模型提升文本到图像生成的一致性和连贯性。对在文本到图像生成领域实现更连贯和一致性输出的研究者和开发者来说，提供了一种新的解决方案。

论文解读

引言

文本到图像模型通过允许用户通过自然语言指导图像生成过程，提供了一种新的创造性灵活性。然而，使用这些模型在不同的提示下一致地描绘相同的主题仍然具有挑战性。现有的方法微调模型，教它描述特定用户提供的主题的新单词，或者向模型添加图像调节。这些方法需要冗长的每个主题的优化或大规模的预训练。此外，它们很难将生成的图像与文本提示对齐，并在描绘多个主题时面临困难。

本文提出了ConsiStory，一种无需训练的方法，通过共享预训练模型的内部激活，实现了一致的主题生成。我们引入了主题驱动的共享注意力块和基于对应的特征注入，以促进图像之间的主题一致性。此外，我们开发了鼓励布局多样性同时保持主题一致性的策略。我们将ConsiStory与一系列基线进行比较，并展示了在主题一致性和文本对齐方面的最先进的性能，而无需进行单一的优化步骤。最后，ConsiStory可以自然地扩展到多主题场景，甚至可以实现对常见对象的免训练个性化。