赞
踩
High-Resolution Image Synthesis with Latent Diffusion Models,LDM 论文是继 VAE、DDPM、DDIM 后,性能较好的工作,于 2022 年 3 月公布。潜在扩散模型 LDM 主要有三个模块:感知图像压缩、扩散模型和条件机制模块,其中感知压缩是 LDM 最关键点。具体说来,以前的扩散模型 DM 是基于原始像素级别的,LDM 则是对图片进行压缩,将图片表示为潜在空间(Latent Space,而不是像素空间),减少计算复杂度,然后输入扩散模型。LDM 模型在主干网络 UNet 中引入 Cross-Attention,可以输入多模态,实现灵活的图片生成控制。
要复现扩散模型相关论文,公式推理工作量比较大,有时特别气馁。贝叶斯、马尔可夫链、朗之万-蒙特卡洛抽样、KL 散度、重参数化等基础知识经常用到。
图 1.1,GAN、VAE、Flow-Base、DM 等几种主流生成模型架构示意图
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。