赞
踩
本文提出了在隐空间应用diffusion model(DM), 称为Latent Diffusion Models(LDM)
主要做法是在VQGAN增强版做diffusion。
在隐空间的好处是既能保持较高的生成质量又能减少计算的资源消耗。
本文的主要贡献:
其实也就是模型的第一个阶段,将原始图像编码到隐空间,也就是一种压缩。为了避免隐空间方差过大,作者采用了两种改进的方式,第一种是加入了KL散度的约束作为正则化,类似于VAE,要求隐变量与标准正态分布尽可能相似。第二种是加入了VQ的正则化,类似于VQGAN。
这个部分原理上与Diffusion没有本质的区别。只是在实现上对UNet进行了一些改动。
对于多模态的条件输入,先用一个编码器 τ θ \tau_{\theta} τθ 将条件信息 y y y 比如文本,编码为中间的表示 τ θ ( y ) \tau_{\theta}(y) τθ(y) 然后与UNet的输出一起作cross-attention
首先尽管VQ正则化的重建效果比KL正则化略差,但是加入LDM之后采样的质量却是VQ正则化的要更高。
然后作者分别在text-to-image,layout-to-image,semantic-to-image,super-resolution都能达到比较好的效果。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。