当前位置:   article > 正文

【翻译】A Survey on Generative Diffusion Model(生成扩散模型的综述研究)

a survey on generative diffusion model

写在开头:

1.本文作者:Hanqun Cao, Cheng Tan, Zhangyang Gao, Guangyong Chen, Pheng-Ann Heng, Senior Member, IEEE, and Stan Z. Li, Fellow, IEEE
2.文章链接:https://arxiv.org/pdf/2209.02646v7.pdf 建议大家多观看原文
3.目的:纯看英文文献太费劲了,回过头第二第三次阅读还是要重新查阅很多词汇。所以决定第一次看就把翻译记录下来,方便回看。
4.文献时间 | 翻译时间:2022.10.19 | 2022.12.08
5.建议不要纠结于文中公式,直接看看不懂的,具体模型的公示还是要看原文,看推导过程。
6.【名词解释-个人理解】 noise scale :DDPM中在正向加噪音时,会在T步中逐渐向图片加噪音,每一步噪音的系数不一样,从(β1…βT),大致是从极小到接近1。关于β的一整个序列叫做noise scale。在第三章大量涉及这一名词,我感觉不太好翻,在此解释一下。
——————————————————————————华丽的分割线————————————————————-————

Abstract 摘要

深度学习在生成任务中显示出卓越的潜力,这要归功于深度的潜在表征 (deep latent representation)。生成模型是这样一类模型,可以遵照 (respect to)某些隐含参数随机生成观测值。最近,扩散模型凭借其优秀的生成能力成为一类新兴的生成模型。现如今,该领域已经有了巨大的成就。除了计算机视觉、语音生成、生物信息学和自然语言处理之外,扩散模型还将探索在更多领域的应用。然而,扩散模型有其内生的缺点,即生成过程缓慢,数据类型单一,低效的似然函数 (low likelihood,个人理解欢迎讨论),无法降维。这些问题引领我们做更多的优化工作。本文对扩散模型领域进行了总结。我们首先用两个具有里程碑意义的作品–DDPM和DSM,以及一个统一的里程碑作品–ScoreSDE来陈述主要问题。然后,对于针对扩散模型的问题提出的改进技术,我们进行了分类。对于加速模型的改进,我们展示了一系列先进的技术来加速扩散模型–训练计划、无训练采样、混合建模以及得分与扩散统一 (score & diffusion unification)。对于数据结构多样化,我们展示了在连续空间,离散空间和约束空间中应用扩散模型的改进技术。对于似然优化,我们展示了改进ELBO和最小化变分间隙的理论方法。对于降维,我们展示了几种解决高维问题的技术。关于现有模型,我们还根据特定的NFE提供FID评分,IS和NLL的基准。 此外,还介绍了扩散模型的应用,包括计算机视觉、序列建模、音频和科学人工智能。最后,对这一领域进行了总结,并提出了限制和进一步工作的方向。关于现有扩散芈姓的已经分好类的总结在我们的GitHub:https://github.com/chq1155/A-Survey-on-Generative-Diffusion-Model

1 introduction 引言

我们能赋予机器类似人类的想象力吗?深度生成模型,例如VAE、EBM、GAN、标准化流 (Normalizing Flows)和扩散模型,在创造人类无法正确识别的新模式方面显示出巨大的潜力。我们专注于基于扩散的生成模型,这些模型不需要将后验分布如同VAE一样进行对齐,像EBM一样处理困难的分区函数,像GAN一样训练额外的判别器,或者像normalizing flow一样增强网络的约束。由于上述优点,基于扩散的方法已经引起了计算机视觉和自然语言处理到图分析的广泛关注。然而,对扩散模型的研究进展仍缺乏系统的分类和分析。

扩散模型的优点是,为描述模型提供了可处理的概率形式的参数,有足够的理论支持的稳定的训练过程,简单的统一的损失函数。扩散模型旨在将先前的数据分布转换为随机噪声,然后逐步反转变换,以重建具有与先前相同分布的全新样本。近年来,扩散模型在计算机视觉,序列建模,音频处理和科学智能(AI for science)等领域显示出其极高的潜力。受扩散模型在这些流行领域中迄今取得的成功的启发,将扩散模型应用于其他领域的生成相关任务,是利用其强大生成能力的很好的方法。

另一方面,与生成对抗网络(GANs)和变分自编码器(VAE)相比,扩散模型具有大量采样步骤和长采样时间的固有缺点。由于扩散模型利用马尔可夫过程通过微小扰动转换数据分布,因此在训练和推理阶段都需要大量的扩散步骤。因此,从随机噪声采样需要更多的时间,直到它最终改变为类似于最开始的高质量数据。此外,似然优化和无法降维等其他问题也很重要。因此,大量的工作都希望在提高采样质量的同时加速扩散过程。例如,DPM-solver利用ODE的稳定性在10个步骤内生成最先进的样本。D3PM不仅提出了混合训练损失,还将扩散模型应用到了文本和分类数据(这类离散数据,个人理解)。我们将扩散模型上的改进总结为四类:(1)加速改进;(2)数据结构多样化;(3)似然优化;(4)降维。详细内容见第3节。

因此,基于广泛的应用和对算法改进的多视角思考,我们的目标是提供一个关于扩散模型当前方面的详细调查。通过对其他领域的增强算法和应用进行分类,本文的核心贡献如下:

  1. 总结扩散模型领域基本算法的数学公式和推导,包括利用训练策略和抽样算法。
  2. 对改进的扩散算法进行全面和最新的分类,并将其分为四个类别,即加速改进、结构多样化、似然优化和降维。
  3. 提供关于扩散模型在计算机视觉、自然局域网处理、生物信息学和语音处理中的应用的广泛陈述,其中包括特定领域问题的专业陈述、相关数据集、评估指标和下游任务,以及一系列benchmarks。
  4. 阐明当前模型的局限性以及扩散模型领域可能的仍需探索 (further-proof)的方向。

2 Problem Statement 问题陈述

2.1 概念和定义

2.1.1 state(不好直接翻)

States 是描述扩散模型整个过程的一组数据分布。开始时,(数据)称为起始状态

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/煮酒与君饮/article/detail/918438
推荐阅读
相关标签