赞
踩
本文根据2022年4月的《High-Resolution Image Synthesis with Latent Diffusion Models 》翻译总结的。论文地址https://arxiv.org/pdf/2112.10752.pdf。源码地址:GitHub - CompVis/latent-diffusion: High-Resolution Image Synthesis with Latent Diffusion Models。
以前的扩散模型(diffusion models (DMs) )基于像素级别的,其需要上百个GPU day 进行训练。我们的方法latent diffusion models (LDMs) 在减少计算复杂度和保留细节、提升保真度中接近了最佳。
我们的方法latent diffusion models (LDMs)是两阶段模型(two-stage)。先对图片进行压缩,将图片压缩为隐变量表示(latent),减少计算复杂度,然后输入扩散模型。
如下图所示,我们进行的感知(perceptual)图片压缩不会丢失太多语义信息,但减少了计算量。
VQ-VAEs在一个离散化的空间使用自回归模型(ARM)学习图片的先验。
我们的方法latent diffusion models (LDMs)也是两阶段模型。
我们模型latent diffusion models (LDMs)是两阶段的。第一部分就是下面左半部分(红色),对图片进行压缩,将图片压缩为隐变量表示(latent),这样可以减少计算复杂度;第二部分还是扩散模型(diffusion与denoising),中间绿色部分。此外引入了cross-attention机制,下图右半部分,方便文本或者图片草稿图等对扩散模型进行施加影响,从而生成我们想要的图片,比如根据文本生成我们想要的图片。
主要讲上图模型的左半部分(红色)。
为了避免任意的高可变的隐空间,我们实验了两种正则。第一种是KL-reg,施加了一个轻微的KL惩罚到学习到的隐变量,类似于VAE。另一种是VQ-reg,在解码器里使用了向量量化层。
这个编码器/解码器,我们可以只训练一次,适用于不同的DM模型训练。
主要讲上图模型的中间部分(绿色)。
我们通过在DM模型的UNET网络中引入cross-attention,实现灵活的图片生成控制。对不同输入模态,可以有效学习基于注意力的模型。
最终目标函数变成如下形式:
编码器下采样因子,我们取f ∈ {1, 2, 4, 8, 16, 32} ,即LDM-f表示不同的模型。其中LDM-1表示没有压缩,等同于原来基于像素的DM。
从下图,可以看出来,LDM-4和LDM-8合成高质量图片效果较好。
如下图,LDM模型效果很好。
LDM的参数也较少,1.45B(14.5亿参数)。
如下图,我们可以根据左上角的空间布局草稿图,生成高分辨率的大图。
下图根据文本生成图片,可以看到效果还不错。
我们可以根据低分辨率图片生成高分辨率图片,如下面中间部分。
可以将图片中的一部分恢复。下图是展示了抠图的效果。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。