当前位置:   article > 正文

Why Latent Space better?——CVPR 2022 : High-Resolution Image Synthesis with Latent Diffusion Models_kl-reg

kl-reg

High-Resolution Image Synthesis with Latent Diffusion Models

Paper : https://openaccess.thecvf.com/content/CVPR2022/html/Rombach_High-Resolution_Image_Synthesis_With_Latent_Diffusion_Models_CVPR_2022_paper.html

Github : https://github.com/CompVis/latent-diffusion

Overview

Pipeline:

objective

这篇文章的重点就在于,为什么从pexel spacelatent space是可行的——在保证减少计算成本的前提下保留了大部分扩散模型的功能,在下一节Motivation会给出解释。

论文提出的模型其实相较于一般的扩散模型没有很大区别,采用模块化设计,可以看作在原始的扩散模型输入和输出地方加了编码、解码;在预测噪声的U-Net输入前也加入了一个domain specific encoder做为对条件输入的编码,其实在实验里提到:对于以对齐的图片为条件的(semantic synthesis, super-resolution and inpainting),采用的domain specific encoder就是第一阶段的encoder;对于文本条件,用的是unmasked Transformer

重点在实验,第一阶段的编码/解码器做了很多组(不同的下采样因子f、正则化KL-reg or VQ-reg);下游任务也涉及了很多,效果很好,有需要的可以去论文看看,这篇文章没放什么实验图。

Motivation

扩散模型近期展现了其强大的数据合成能力,但由于顺序计算,扩散模型的训练和推理成本都很高;如何以更低的成本使用扩散模型,同时保持生成结果的质量和灵活性?

首先看这张图(来自DDPM论文),失真在rate很小的时候近乎收敛,说明图像中大多像素位表示的是一种imperceptible(感觉不到的、极细微的)信息;
在这里插入图片描述

本文作者在这张图下结合了一组样本,看着会很形象:

本文作者认为,在像素空间的扩散模型企图通过优化一些具体的损失项来实现对这种细微像素的压缩表达,而且这样的计算往往在所有的像素上进行的;也就是说训练、推断时的很多计算开销都是不必要的。

所以作者提出,对于这些难以察觉的信息,先一步使用自编码器进行压缩,从而从图像中提取出富有语义信息的编码供扩散模型使用,最大程度上保留了扩散模型的编辑质量和能力。

Perceptual Image Compression

下采样因子f=H/h=W/w,实验中取值 f = 2 m f=2^m f=2m

实验中采取两种正则化:KL-reg,VQ-reg

Experiment on Perceptual Compression Tradeoffs

下采样因子f表示了编码器的压缩强度,f=1时对应于原始的像素空间的扩散模型。

这一节讨论的是不同f的取值,对于整体的实验结果会有那些损失 or 加强。

首先,编码器的压缩能力是越强越好吗?

先看结果,f=1时为基于像素空间的扩散,这导致需要相比于其他f取值,f=1需要更多的训练时间来达到收敛;f=32是不是最好呢?可以看到在少量的训练后便陷入停滞阶段,最终结果甚至不如f=1

所以并不是越高的下采样比越好,作者给出的解释:

  1. 需要把大部分感知压缩的工作留给后续的扩散模型;
  2. 第一阶段的压缩能力太强将导致信息损失,并且限制了可达到的质量。

所以,LDM-{4-16}的效果相对更好,在2M个训练step之后,LDM-8LDM-1FID差距高达38

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/225705
推荐阅读
相关标签
  

闽ICP备14008679号