当前位置:   article > 正文

(2024,多模态提示,扩展注意力,分离的交叉注意力)CreativeSynth:基于多模态扩散的视觉艺术创意融合与合成_5.creativesynth

5.creativesynth

CreativeSynth: Creative Blending and Synthesis of Visual Arts based on Multimodal Diffusion

公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群)

目录

0. 摘要

3. 方法

3.1. 概述

3.2. 条件引导

3.3. 美学保持

3.4. 语义融合

3.5. 采样过程

4. 实验

5. 结论与未来工作


0. 摘要

大规模文本到图像生成模型取得了令人瞩目的进展,展示了它们合成各种高质量图像的能力。然而,将这些模型调整用于艺术图像编辑面临两个重要挑战。首先,用户难以制作详细描述输入图像视觉元素的文本提示。其次,当在特定区域进行修改时,普遍存在的模型经常会破坏整体艺术风格,使得实现连贯和美学统一的艺术品变得更加复杂。为了克服这些障碍,我们构建了创新的统一框架 CreativeSynth,它基于一个具有协调多模态输入和在艺术图像生成领域进行多任务处理能力的扩散模型。通过将多模态特征与定制的注意机制相结合,CreativeSynth 促进了将现实世界的语义内容通过反演和实时风格迁移引入艺术领域。这允许在保持原始模型参数完整性的同时,精确操纵图像的风格和内容。严格的定性和定量评估强调了 CreativeSynth 在提高艺术图像保真度和保留其固有美学本质方面的卓越表现。通过弥合生成模型与艺术技巧之间的差距,CreativeSynth 成为一个定制的数字调色板。

代码:https://github.com/haha-lisa/CreativeSynth

3. 方法

3.1. 概述

CreativeSynth 整合了来自文本和图像模态的信息,以基于引导条件对艺术品进行采样。如图 3 所示,

  • 这种方法始于从图像和文本提示中提取语义线索的编码,为条件引导奠定基础。
  • 然后通过专用处理器专注于美学保持,通过自适应实例归一化调整语义图像风格,使其与目标图像保持一致。
  • 在语义融合部分,CreativeSynth采用了一种分离的交叉注意机制,精心协调了视觉和文本特征之间的相互作用,从而产生了一个具有内在一致性的合成而非各部分之和。
  • 最后,采样过程基于图像反演的原则,利用降噪技术从初始噪声中反向采样图像。
  • 最终,CreativeSynth 生成与给定语义提示和选择的美学风格对齐的定制艺术品。

3.2. 条件引导

对于给定的文本提示 P,使用预训练扩散模型的分词器和文本编码器生成文本嵌入 E_text。

对于输入图像 I,通过稳定扩散模型的 VAE 编码器网络进行前向传递来计算编码。

3.3. 美学保持

风格对齐。我们引入了一个风格对齐处理器来调整模型的注意机制和归一化层。它实现了在目标图像和语义图像之间的自适应风格混合。具体而言,我们利用自适应实例归一化(AdaIN)[14] 技术。它调整语义图像 Is 的均值和方差,使其与美学图像(目标图像) Ia 的特征相同。AdaIN 公式如下: 

其中,Qs 和 Ks 是语义图像的 query 和 key,Qa 和 Ka 分别是目标图像的 query 和 key。AdaIN 操作定义如下: 

其中,μ(x) 是语义特征的均值,σ(x) 是语义特征的标准差,μ(y) 是目标特征的均值,σ(y) 是目标特征的标准差。

共享注意力。共享注意力结合了目标图像和语义图像的特征,根据目标图像的风格更新语义图像中的信息。ˆQs 和 Kas 分别表示归一化的 query 和共享 key,而 Vas 表示 value:

key 和 value 从目标图像和语义图像聚合在一起,而 query 仅表示目标图像的属性。扩展的点积注意力机制的应用如下:

其中,d 是 key 和 query 的维度。

3.4. 语义融合

分离交叉注意力。文本特征被视为注意力的上下文,而编辑文本使用不与目标图像特征共享注意力的交叉注意力机制。通过解耦交叉注意力机制,图像的共享注意力结果和文本的交叉注意力结果被合并用于最终的图像生成。每个信息流(图像和文本特征)通过各自的交叉注意力层进行处理,之后它们被合并以生成最终修改的图像特征 Z′′: 

这里的 Q、K、V 是文本特征的转换后的 query、key 和 value 矩阵。每个分离的注意力操作的贡献被累加起来,影响最终的特征表示。

3.5. 采样过程

图像反演。为了在给定条件文本下重构一个真实图像,我们需要执行一个反向过程,从随机噪声中恢复图像。我们采用判别式去噪扩散隐式模型(DDIM)作为我们的核心去噪技术。具体而言,我们使用以下 DDIM 的反向公式来恢复原始图像: 

在采样过程中,我们设计了一个反演回调(inversion callback)函数,其目的是在每个反演步骤的结束时调整潜空间向量,以确保图像文本对齐。为此,我们定义以下回调函数: 

这里 z_t 表示与时间索引 t 相对应的潜变量,它被替换为通过 DDIM 反演技术 [31] 预先计算的向量。这确保在整个扩散过程中,我们优化的潜空间向量与目标图像的固有属性保持高度一致。

4. 实验

5. 结论与未来工作

在本文中,我们提出了 CreativeSynth,一个旨在实现视觉艺术品创意融合和合成的统一框架。主要目标是将多模态语义信息融入艺术品的世界。这个过程确保了艺术作品固有主题、情感和叙事的保留,超越了仅仅在自然图像上叠加风格的简单操作。这样,每件合成的作品不仅是视觉融合,还是意义和故事的交汇;具有鲜明的个性、独特的视觉叙事和独特的情感深度。 实验结果显示, CreativeSynth 不仅因其视觉效果而受欢迎,而且在执行用户特定的艺术编辑意图方面也非常有效。

在未来,我们计划将这种方法应用于不同的图像生成架构,并扩大其应用范围,包括其他形式的媒体,如视频。通过后续的改进和应用,我们的方法将帮助创作者实现前所未有的创意表达。 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/484929
推荐阅读
相关标签
  

闽ICP备14008679号