赞
踩
abstract: 通过将图像形成过程分解为去噪自动编码器的顺序应用,扩散模型 (DM) 在图像数据及其他方面实现了最先进的合成结果。此外,他们的公式允许一种指导机制来控制图像生成过程,而无需重新训练。然而,由于这些模型通常直接在像素空间中运行,因此强大的 DM 的优化通常会消耗数百个 GPU 天,并且由于顺序评估,推理成本很高。为了在有限的计算资源上进行 DM 训练,同时保持其质量和灵活性,我们将它们应用在强大的预训练自动编码器的潜在空间中。与之前的工作相比,在这种表示上训练扩散模型首次允许在复杂性降低和细节保留之间达到接近最佳的点,从而极大地提高了视觉保真度。通过将交叉注意力层引入模型架构中,我们将扩散模型转变为强大而灵活的生成器,用于一般调节输入(例如文本或边界框),并且以卷积方式使高分辨率合成成为可能。我们的潜在扩散模型 (LDM) 在图像修复和类条件图像合成方面实现了新的最先进分数,并在各种任务上实现了极具竞争力的性能,包括无条件图像生成、文本到图像合成和超分辨率,同时显着与基于像素的 DM 相比,减少了计算要求。
paper:https://openaccess.thecvf.com/content/CVPR2022/html/Rombach_High-Resolution_Image_Synthesis_With_Latent_Diffusion_Models_CVPR_2022_paper.html
code:https://github.com/CompVis/stable-diffusion.git
huggingface: https://huggingface.co/runwayml/stable-diffusion-v1-5
clone后https://github.com/CompVis/stable-diffusion,开始配置:
359
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。