赞
踩
Paper : https://openaccess.thecvf.com/content/CVPR2022/html/Rombach_High-Resolution_Image_Synthesis_With_Latent_Diffusion_Models_CVPR_2022_paper.html
Github : https://github.com/CompVis/latent-diffusion
Pipeline:
objective
这篇文章的重点就在于,为什么从pexel space
到latent space
是可行的——在保证减少计算成本的前提下保留了大部分扩散模型的功能,在下一节Motivation
会给出解释。
论文提出的模型其实相较于一般的扩散模型没有很大区别,采用模块化设计,可以看作在原始的扩散模型输入和输出地方加了编码、解码;在预测噪声的U-Net
输入前也加入了一个domain specific encoder
做为对条件输入的编码,其实在实验里提到:对于以对齐的图片为条件的(semantic synthesis, super-resolution and inpainting
),采用的domain specific encoder
就是第一阶段的encoder
;对于文本条件,用的是unmasked Transformer
。
重点在实验,第一阶段的编码/解码器做了很多组(不同的下采样因子f
、正则化KL-reg or VQ-reg
);下游任务也涉及了很多,效果很好,有需要的可以去论文看看,这篇文章没放什么实验图。
扩散模型近期展现了其强大的数据合成能力,但由于顺序计算,扩散模型的训练和推理成本都很高;如何以更低的成本使用扩散模型,同时保持生成结果的质量和灵活性?
首先看这张图(来自DDPM论文),失真在rate很小的时候近乎收敛,说明图像中大多像素位表示的是一种imperceptible
(感觉不到的、极细微的)信息;
本文作者在这张图下结合了一组样本,看着会很形象:
本文作者认为,在像素空间的扩散模型企图通过优化一些具体的损失项来实现对这种细微像素的压缩表达,而且这样的计算往往在所有的像素上进行的;也就是说训练、推断时的很多计算开销都是不必要的。
所以作者提出,对于这些难以察觉的信息,先一步使用自编码器进行压缩,从而从图像中提取出富有语义信息的编码供扩散模型使用,最大程度上保留了扩散模型的编辑质量和能力。
下采样因子f=H/h=W/w
,实验中取值
f
=
2
m
f=2^m
f=2m;
实验中采取两种正则化:KL-reg,VQ-reg
下采样因子f
表示了编码器的压缩强度,f=1
时对应于原始的像素空间的扩散模型。
这一节讨论的是不同f
的取值,对于整体的实验结果会有那些损失 or 加强。
首先,编码器的压缩能力是越强越好吗?
先看结果,f=1
时为基于像素空间的扩散,这导致需要相比于其他f
取值,f=1
需要更多的训练时间来达到收敛;f=32
是不是最好呢?可以看到在少量的训练后便陷入停滞阶段,最终结果甚至不如f=1
。
所以并不是越高的下采样比越好,作者给出的解释:
所以,LDM-{4-16}
的效果相对更好,在2M
个训练step
之后,LDM-8
与LDM-1
的FID
差距高达38
。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。