当前位置:   article > 正文

【讲座图文版】清华大学朱军教授:使用扩散模型生成高维数据

dpm solver++是sde还是ode求解器

点击蓝字

28e1393c35cdcc136c0886a4f1e0ae39.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!


大纲
  1. 开场介绍

  • AI Time 2024 ICML预讲会介绍

  • 嘉宾介绍:朱军教授

主题分享

  • 生成式模型的基本概念

  • 生成式模型的历史与现状

  • 生成式模型的应用场景

  • 生成式模型的优势与挑战

  • 扩散模型的基本原理

  • 扩散模型的应用案例

  • 扩散模型的优化与改进

  • 扩散模型的未来发展方向

答疑环节

  • 网友提问与朱军教授的回答

内容总结

一句话总结

朱军教授分享了关于使用扩散模型生成高维数据的研究进展,并探讨了扩散模型在生成任务之外的其他应用。

关键内容总结

  1. 生成式模型与判别式模型的比较。

  2. 扩散模型的基本原理和应用。

  3. 扩散模型的优化与改进。

  4. 扩散模型的未来发展方向。

金句摘抄

  1. "生成式模型的核心目标是建模多变量的联合分布,例如在无监督学习中是P(X),在有监督学习中是P(X,Y)。"

  2. "扩散模型的底层架构,由于其本质是加噪去噪过程,因此在之前的许多研究中,研究者们倾向于采用UNet架构作为图像去噪模型的主干网络。"

  3. "生成式模型通常学习速度更快,意味着在较少的数据量下即可达到接近最优的性能。"

自问自答

  1. 生成式模型与判别式模型有什么区别?

  • 生成式模型学习联合分布,判别式模型学习条件分布。

扩散模型的基本原理是什么?

  • 扩散模型通过学习一个参数化的模型分布来逼近实际的数据分布。

扩散模型有哪些应用场景?

  • 扩散模型可以用于生成图像、视频、3D模型等多种高维数据。

扩散模型的未来发展方向是什么?

  • 扩散模型可能会在生成质量、计算效率、多模态生成等方面进行优化和改进。

扩散模型与传统生成模型(如VAEs)有什么不同?

  • 扩散模型通过学习逆向的去噪过程来生成数据,而传统生成模型(如VAEs)需要学习编码器和解码器。

关键词标签

  • 生成式模型

  • 扩散模型

  • 深度学习

  • 图像生成

  • 视频生成

  • 3D模型生成

适合阅读人群

  • 机器学习研究人员

  • 深度学习爱好者

  • 图像处理工程师

  • 视频处理工程师

术语解释

  • 生成式模型:学习数据分布,并从中生成新数据的模型。

  • 判别式模型:学习数据与标签之间的关系,并用于分类或回归任务的模型。

  • 扩散模型:通过学习加噪过程和去噪过程来生成数据的模型。

  • 变分自编码器(VAEs):学习数据分布并从中生成数据的模型,需要学习编码器和解码器。

  • 贝叶斯优化:一种优化算法,通过考虑概率分布来寻找最优解。

讲座链接:https://www.bilibili.com/video/BV14f421X7Sh

由于本人专业水平有限,文中可能出现的专业名词、人名等没有校对正确,为避免误导,请您联系我不吝指出,非常感谢!

讲座回顾

8051433507c7a6af6c7e1c53ef02b91d.png好的,我们准备开始,有请何老师。AITIME论道的线上观众们,大家早上好。

c05d22cca05aa116ec414be76b38dbfa.png
  • ICML预讲会于6月4日开启,为期两天。

  • 已有70多位海内外学者和讲者报名参与,报名仍在进行中。

  • 参与者包括中国及海外高校实验室的研究人员和优秀论文的第一作者。

  • 邀请了清华大学的朱军教授进行分享,其团队最近发布的视频模型备受关注。

  • 分享后可能会有答疑环节,但受时间限制,将挑选部分问题进行Q&A。

我们非常高兴大家能参加AI Time。今年的ICML预讲会于6月4日正式开启,将持续两天。截至目前,已有70多位海内外学者和讲者报名参与,报名仍在进行中。参与者包括来自中国及海外高校实验室的研究人员,以及优秀论文的第一作者。希望大家能持续关注直播间,聆听分享。我们很荣幸能提供这样一个平台,让全球顶尖会议的华人第一作者在AI Time进行交流。今天,我们非常荣幸地邀请到了清华大学的朱军教授。朱教授无需过多介绍,他的人气非常高,其团队最近发布的视频模型也备受关注。接下来,我们将时间交给朱教授,之后可能会有答疑环节,但由于时间限制,我们将挑选部分问题进行Q&A。非常欢迎大家,也非常荣幸能邀请到朱教授。

e9bde375fe79ebcaa90d7102e9584214.png感谢何云老师的邀请和介绍。今天很荣幸与大家分享,主题为使用扩散模型生成高维数据,并简要探讨扩散模型在生成任务之外的其他应用。这是本次分享的主要内容。背景是当前讨论的生成式模型。

8fdea07c5d0cebd55286bdf1e5911fc7.png
  • 生成式模型是一种与传统判别式方法不同的模型范式。

  • 生成式模型的目标是学习一个参数化的模型分布,以逼近实际的数据分布。

  • 通过估计散度来衡量模型分布与数据分布之间的接近程度。

  • 数据分布实际上是通过逼近一个经验分布来实现的。

在生成模型的研究中,我们通常称之为生成式模型。与传统的判别式方法相比,生成式模型有着不同的范式。在生成式建模中,我们通常观察到一组训练数据,并假设存在一个未知的数据分布。我们的目标是通过学习一个参数化的模型分布来逼近实际的数据分布。为此,我们通过估计一个散度来衡量模型分布与数据分布之间的接近程度。对于数据分布,我们实际上是逼近了一个经验分布。这是生成式模型的基本范式。在机器学习领域,我们经常探讨这一概念。

799cde29eb3ee0894c19fd3d14e88909.png
  • Mixture of Gaussian的早期工作主要用于无监督学习中的去噪任务。

  • 有监督学习中常用朴素贝叶斯模型来构建类别和数据的分布,进而生成分类器。

  • MOE(Mixture of Experts)方法可根据专家定义进行无监督或有监督学习。

  • 概率图模型如BSNet和Energy Based Model定义了生成式模型。

  • 非参数贝叶斯方法和深度生成模型也是机器学习领域的重要研究方向。

比较经典的和近期的一些例子,例如早期的Mixture of Gaussian,用于无监督学习,特别是在处理去噪任务中。此外,在有监督学习中,我们使用朴素贝叶斯模型来构建类别和数据的分布,通过这种分布来获得分类器。还包括像MOE(Mixture of Experts)这样的方法,它可以根据专家的定义进行无监督或有监督学习。更广泛的例子如概率图模型,特别是如BSNet和Energy Based Model等,它们定义了生成式模型。还包括非参数贝叶斯方法,以及今天将讨论的深度生成模型。这些都是在机器学习领域中一直存在的研究方向,我们之所以关注它们,是因为它们的重要性。

f25376cb24df669fb5b498eea52c3e83.png
  • 生成式模型在机器学习领域的重要性:生成式模型能够建模多变量的联合分布,如P(X)或P(X,Y),这使得它们在预测和条件预测等任务中非常有用。

  • 生成式模型的应用:生成式模型可以用于合成数据生成、环境生成、提高数据利用率,以及在半监督或小样本学习中减少对标签数据的依赖。

  • 生成式模型在强化学习中的应用:用于行为建模。

  • 生成式模型受到关注的四个原因:模型的表达能力增强、高效的算法、可利用大规模数据、计算能力的提升。

特别是现在,在机器学习领域,生成式模型已经成为一个非常重要的研究课题。从生成式模型的本质来看,它本身具有构建基础模型的潜力。生成模型的核心目标是建模多变量的联合分布,例如在无监督学习中是P(X),在有监督学习中是P(X,Y)。如果知道一个联合分布,就可以获取所有相关变量的任意信息,用于预测或条件预测等任务。因此,如果能有效估计联合分布,就具备了构建基础模型的基础,可以完成许多任务。这也是我们关注生成式模型的原因。在实际应用中,生成式模型可以赋能许多任务,如合成数据或环境生成。如果建模XY联合分布,还可以从中得到分离器,提高数据利用率。在半监督或小样本学习场景中,拥有联合分布可以降低对标签数据的依赖。此外,生成式模型还可以用于强化学习中的行为建模。

生成式模型之所以受到关注,可能有四个原因:一是模型的表达能力增强,尤其是深度生成模型,可以利用神经网络拟合复杂函数关系,有效描述高维数据的复杂分布;二是高效的算法,如变分法和MCMC等方法在机器学习领域已有多年研究基础;三是可利用大规模数据,得益于生成式范式,可以采用无监督或自监督学习方法利用大量数据;四是计算能力的提升,GPU加速了所有设计的实现。模型的表达能力增强是首要原因,需要更高效的算法和更大的计算资源,同时对数据的消耗也更大。

70586d21ab1e15def16a666b10a24b99.png
  • 深度生成模型的目标是学习变量间的变换,将标准高斯噪声转换为自然场景图片的真实分布。

  • 使用可微分的神经网络作为变换器的范式已被证明非常有效,能在无监督情况下实现高质量训练和生成。

  • 模型效果取决于变量X的密度函数是显式还是隐式定义的。

  • 模型分为显式模型(如变分自编码器、流模型、扩散模型)和隐式模型。

  • 隐式模型需要通过特定准则(如运动匹配)引导学习,以匹配数据分布。

特别是使用可微分的神经网络作为变换器的范式。这张图简单总结了在深度生成模型中,我们旨在学习变量之间的变换。我们希望将标准高斯噪声转换为自然场景图片的真实分布。这种范式已被证明非常有效,我们可以在完全无监督的情况下实现高质量的训练和生成。从模型角度来看,其效果大致取决于变量X的密度函数是显式还是隐式定义的。我们将模型大致分为两类:一类是显式模型,可以明确写出X的密度或条件密度,包括变分自编码器、流模型和扩散模型等;另一类是隐式模型,这在统计学或数学中已有广泛研究,主要描述了从初始条件或边界条件生成数据的过程。从模型中得到的是模型产生的数据,需要通过特定准则引导模型学习,以达到与数据分布匹配的目标。这包括运动匹配等方法,用于训练隐式模型。这张图也大致总结了这些内容。

d8274c94e3d6752a5eb716a98df3e370.png
  • 深度生成模型主要从两个角度进行分类:概率密度函数的定义和训练准则。

  • 概率密度函数定义上分为隐式和显式两种。

  • 训练准则上包括最大似然估计、得分匹配和对抗训练。

  • 文章将重点介绍扩散模型及其在高维空间数据生成中的应用。

这就是目前代表性的深度生成模型的大致分类情况。从两个角度来看,一是从概率密度函数的定义上,分为隐式和显式两种,前面已经提到过。二是从训练准则上来看,我们有许多基于最大似然估计的方法,也有基于得分匹配和对抗训练的方法。接下来,我将重点介绍扩散模型及其在生成高维空间数据中的应用。扩散模型的例子可以直观地进行形象化理解。

6606bfb2e681c57758caa9097e3d8878.png
  • 物理学中的扩散过程是从高度聚集的有序状态转变为无序状态。

  • 生成模型中期望实现从无序到有序的逆过程。

  • 逆过程可以被形式化地描述。

在物理学中,扩散过程是一个常见的现象,例如墨汁滴入水中会逐渐扩散开来。这一过程从高度聚集的结构状态转变为无序状态。然而,在生成模型中,我们期望实现相反的过程,即从无序状态逐步演化至有序结构,这一过程被称为逆过程。该逆过程可以被形式化地描述出来。

eefe4ed03f069acf4f40a982e5420680.png
  • 扩散概率模型包含前向扩散过程,通过逐渐增加高斯噪声使信噪比下降,最终收敛至标准高斯分布。

  • 前向过程的联合分布可以明确写出,每步噪声由给定的均值和方差参数确定。

  • 生成模型关注的是逆过程,即从高噪声状态逐步还原至高质量图片。

  • 逆过程的关键是去噪模型,即从高噪声到低噪声的转移概率。

  • 机器学习中通过变分推断等方法估计逆过程的分布,通过最小化KL散度实现学习。

现在广泛关注的扩散概率模型,其实质可以描述为,借用宋朗的图例,它包含一个前向扩散过程,该过程可视为逐渐增加噪声的过程。例如,从原始图片开始,逐渐加入高斯噪声,其均值和方差满足特定条件,导致信噪比逐渐下降。当加噪步骤足够多时,最终会收敛至标准高斯分布。这一过程在Wikipedia中有所描述,其联合分布可被明确写出,这是前向过程的特点。每一步的噪声在给定均值和方差参数后即被确定。在生成模型中,我们希望学习的是逆过程,即红色箭头所示,从高噪声状态逐步还原,最终生成高质量图片。这一过程的联合分布可反向表示,关键在于去噪模型,即从高噪声状态到低噪声状态的转移概率,这是我们需要学习的。在机器学习领域,估计这一分布有多种方法,如使用变分推断,假设某一变分分布(如高斯分布),其均值为状态函数,方差为某一常数,通过最小化KL散度等方法实现学习。这是扩散模型中主要学习的关键量。

bb6bcb58d8e5460fa436a66185e9327b.png
  • 扩散模型因其原理简洁而受到广泛关注。

  • 扩散模型不需要学习编码器,只需学习逆向去噪过程。

  • 与VAEs相比,扩散模型简化了目标函数,通常为MSE优化问题。

  • 使用高斯噪声的扩散模型在长时间去噪后能收敛于高斯分布,得到良好近似结果。

  • 扩散模型在生成任务中表现出色,是其受欢迎的重要原因。

扩散模型之所以受到广泛关注和应用,主要是因为其在原理上相对简洁。在扩散模型中,我们不需要学习从输入到隐含状态的编码器,因为前向扩散过程是预设的,我们只需学习逆向的去噪过程。这与变分自编码器(VAEs)不同,后者需要学习编码器和解码器。在扩散模型中,如果我们选择高斯噪声,目标函数通常可以简化为均方误差(MSE)优化问题,使得目标函数相对简洁,转化为回归问题,求解也相对容易。此外,当去噪时间足够长时,逆向过程会收敛于高斯分布,这意味着使用高斯噪声的假设不会导致糟糕的结果,反而能得到较好的近似结果。最后,扩散模型在许多场景下的生成效果非常突出,这也是其受到关注的重要原因。当然,还有许多基础工作需要进一步研究。

9b6a3e8f0ca8ac76278d9ed7f2fe16b5.png
  • 宋扬的工作将扩散过程推广到连续时间,涉及随机微分方程(SDE)的应用。

  • 描述了前向随机微分方程和逆向SDE,后者用于从噪声到数据的演化。

  • 强调了边际分布的得分函数的重要性,它是每个时刻的关键参数。

  • 提出通过估计得分函数并解逆向SDE来实现图像生成的框架。

比如像宋扬的一项重要工作,它可以将扩散过程推广到连续时间。当噪声添加步骤趋于无穷时,实际上这本身就变成了一个随机微分方程的描述。这是一个前向随机微分方程。同样,它也有一个逆向的SDE,即从噪声到数据的演化过程。这里蓝色标出的是边际分布的得分函数,即每个时刻的得分函数。换句话说,在这种框架下,只需估计出得分函数,然后解逆向的SDE,就可以实现图像生成。这是其在连续时间下的原理,当然它还可以等价描述。

306f8d43369c76905f3acb2b763de351.png
  • 讨论了在保持边缘分布不变的情况下,扩散随机微分方程(SDE)可以等价于常微分方程(ODE)。

  • 提到了SDE和ODE都有各自的求解方法,如DDPM和DDIM。

  • 分享内容将集中在两个方面:扩散模型的大规模训练和高效算法在生成高维数据中的应用。

如果在保持边缘分布不变的情况下进行变化,例如扩散SDE可以等价于ODE。对于SDE和ODE,都有相应的求解方法。之前的方法如DDPM和DDIM等用于求解。接下来,我将主要分享两部分内容。由于时间有限,我将快速介绍一些相关进展。首先,我们关注的是扩散模型的大规模训练,以及高效算法在生成高维数据中的应用。在此,我将重点强调这些内容。

61170592c2b4dd62577c5b4a08c87d44.png
  • 研究关注扩散模型的估计问题,通过Q分布近似目标分布,最小化KL散度。

  • 传统方法固定方差参数,而本研究直接优化原始问题,得到均值和方差的解析形式。

  • 开发了一个无需额外训练的最终方差估计器,通过简单代码插入即可使用。

  • 该方法提高了方差估计的准确性,减少了迭代次数,提升了数据生成质量。

  • 性能提升显著,达到20到80倍,已被应用于实际系统如大地图。

比如说,早期的一项工作是关于扩散模型(Diffuse Model)的估计问题。我们旨在通过一个Q分布来近似目标分布,通过最小化KL散度实现。在以往的方法中,通常会固定方差参数而不进行优化。然而,我们发现,如果直接优化原始问题,可以得到均值函数和方差的解析形式,这种形式与之前学者手工设计的方法相吻合。同时,我们得到了一个关键的最终方差估计器,该估计器无需额外训练。在预训练的扩散模型中,只需插入一行代码即可获得最终方差的估计。这带来的好处是,每一步的方差估计更为准确,直接结果是能够以更少的迭代次数生成高质量数据。最终,我们实现了20到80倍的性能提升。这项工作在2022年是一个显著的进展,并已被应用于如大地图等系统中。

34e7b20e451e0a36c913491f1e7f3d5d.png也使用了扩散模型来加速和生成高质量的图像。此外,还涉及了相关的内容。

2ef8646296963e2afc351b0fc67a522c.png
  • 介绍了一种名为DPM Solver的扩散模型优化工具,用于改进图像生成过程。

  • 推出了DPM Solver的两个升级版本:DPM Solver++和V3。

  • 这些版本旨在创建一种Trendy Free的Definition ODE求解器。

  • 与传统的EGA方法相比,DPM Solver能在十余步内生成高质量图片,而EGA可能需要几十到三百步。

  • V3版本进一步提升了生成效果。

实际上,第二个工作也是为了求解这些问题。这就是一个扩散模型优化其生成过程的工作,称为DPM Solver。随后推出了两个版本,DPM Solver++和V3,旨在设计一种Trendy Free的Definition ODE求解器。与之前使用EGA方法进行图像生成相比,可能需要几十到三百步才能收敛到高质量图片。而使用DPM Solver,通过其针对扩散模型特殊设计的结构,作为ODE求解器,实际上只需十余步即可生成高质量图片。在V3版本中,我们进一步提升了其效果。关于其原理,我就不详细展开了。

26635a66187f71fa14bf63fc323e258e.png这一项包含更多对比,包括对一键模型的改进方法。整体上,Depentsoil的效果依然十分显著。

ddf763ec1f61f6ee67b7e9dbfde62b55.png扩散模型的底层架构,由于其本质是加噪去噪过程,因此在之前的许多研究中,研究者们倾向于采用UNet架构作为图像去噪模型的主干网络,主要基于卷积方式实现。

220094fd15fa71ce0c640ea1f2f81981.png
  • 研究动机:探索扩散模型中骨干网络的替代方案,以提高灵活性和可扩展性。

  • 主要尝试:将骨干网络从UNet替换为Transformer架构。

  • 创新架构:设计了名为UViT的架构,结合了扩散模型与视觉Transformer(VIT)。

  • 技术改进:引入LongSkip连接以优化网络训练效率。

  • 预期成果:将展示UViT架构的实际验证结果。

我们之前进行的一项研究,其主要动机相对简单,即在扩散模型中,骨干网络的选择相对有限,之前主要由UNet主导。因此,我们尝试探索是否能将骨干网络替换为更具灵活性和可扩展性的架构,例如Transformer。为此,我们设计了一种名为UViT的架构,这可能是将扩散模型与视觉Transformer(VIT)融合的早期尝试之一。为了使整个网络更有效地训练,我们引入了LongSkip连接,后续将展示一些实际验证的结果。

924a3db14c73c4f5f813f1235685ffc6.png对所有设计组件进行了详细分析,并证明了使用LongSkip实际上有助于模型的可扩展性。

bbb3e4db7ef6036b7dda1dd0db712a59.png
  • 训练了约5亿个参数,在当时属于大规模。

  • 开源版本接近10亿参数,同样是大规模。

  • 验证了模型的可扩展性,测试了不同深度、宽度和patch大小的设置。

  • 在EmainNet的256配置下也进行了验证。

当时的工作中,我们训练了大约5亿个参数,这在当时已经算是相当大的规模。包括稳定性函数等在内,当时的开源版本接近10亿参数,这在实验中已经是一个相当大的规模。我们仔细验证了其可扩展性,在不同设置下,如不同深度、宽度和patch大小,都充分测试了其可扩展性。此外,在如EmainNet这样的256配置下也进行了验证。

d3434b56be4ae01753603b7dd06a2014.png在这种分辨率下的生成结果也达到了最佳水平,FID分数大约为2.29,随后大家开始关注Diffusion Transformer,即DIT,它实际上是与

eded0a3288088cf4fe5b43f9356ae2be.pngUViT的设计理念与我们的想法非常相似。我们大约在公开实践上比他们早了三个月,这可以视为统计上的相关工作。之后,我们进一步在大规模数据上进行了深入研究。

236b0d01be035849e685ae6744c63515.png
  • UIT上正在推进名为Unit Diffuser的大规模训练过程。

  • 目标是训练一个能处理图文多模态的扩散模型。

  • 理论上,学习到两种模态的联合分布可以执行多种推理任务,包括文本到图像、图像到文本的转换及单模态或跨模态生成任务。

  • 以往研究在自动处理方面存在重复,需要更多探索和创新。

在UIT上,我们要进一步实现大规模训练,这个过程被称为Unit Diffuser。我们的目标是训练一个能够处理图文多模态的扩散模型。基于对联合分布的理解,理论上,如果能够学习到两种模态的联合分布,那么就可以执行任何列出的推理任务。这包括从文本到图像、图像到文本的转换,以及单模态或跨模态的生成任务。这就是我最初提到的,如果能够有效地学习到联合分布,实际上可以获取与数据相关的任何信息。然而,以往的研究在自动处理方面存在重复,需要进一步的探索和创新。

fbeae3ec06ae416ca4cc02dba50df71c.png在训练扩散模型时,通常采用分解方式,即每个任务可能训练一个专用的扩散模型,例如边际扩散模型、条件扩散模型或联合扩散模型。我当时的动机是能否通过设计一种架构来实现这一目标。

b9cb14fb6426593c03d677b80d88d421.png
  • 提出一个模型只需训练一次即可完成多种任务的概念。

  • 解释了扩散模型的本质是训练过程中的条件期望拟合。

  • 指出条件期望可以在所有任务中统一表达为扩展的通用条件期望。

  • 引入UniDiffuser架构,通过设定tx和ty参数实现任务切换,无需多次训练。

一个模型只需训练一次,即可实现上述所有任务。这是最初的动机。实际上,通过分析发现这是可行的,因为对于扩散模型而言,其本质在于训练过程中的拟合,即条件期望。这种条件期望实际上可以在所有任务下统一表达为一个扩展的通用条件期望。我们只需训练一次,之后通过设定tx和ty这两个参数,就能实现任何上述任务。这一架构我们称之为UniDiffuser,它实际上能够将多个任务真正统一,无需训练多个模型。

aa573cbd48448c54886b7406bda7411f.png
  • 第一版模型参数量基于Stable Diffusion。

  • 训练集大小与Stable Diffusion相关。

  • 当前模型为通用模型,相比Stable Diffusion具有更强通用性。

  • 去年已在此通用模型基础上进行开发。

在公布第一版时,主要的参数量是基于Stable Diffusion,包括训练集的大小。然而,我们的模型是一个更通用的unified model,相比Stable Diffusion等专用模型,具有更强的通用性。去年,我们已在此基础上进行了开发。

f7f2a537262e3f0eb6c71fc54b4c9564.png然后,与SD相比,它实际上是第一个在Diffusion Transfer融合架构上进行大规模训练的开源模型。在此基础上,你可以进行充分的训练。

0258ae0e222350147aa57072b295a025.png在这种大规模模型之后,可以较为容易地通过微调来生成各种风格的图像,包括使用LoRA或其他微调方法来实现这一目标。

7861e345c68f2aba6293de58152d81de.png当然,前面已经提到了这一点。

175de603dda3d561ec7515e91a898955.png
  • 研究从图像生成扩展到视频生成,视频被视为时间轴上连续的多帧图像。

  • 初始阶段能生成4秒视频,最新模型已能生成16秒高质量视频。

  • 生成的视频内容包括小木偶船在地毯上行驶的场景,提供更丰富的内容描述。

  • 与未公开访问的Sara模型进行了比较,使用了其公开的示例。

关于图像的基座模型,在完成图像生成后,我们进一步探索了更高维数据的生成,特别是视频。视频可以视为多帧图像在时间轴上的连续展现。我们的工作从最初的4秒视频生成,发展到最新公布的微度模型,已能生成16秒的高质量视频。例如,生成一个小木偶船在地毯上行驶的场景,这与业界常见的4秒片段有本质区别,能提供更丰富的内容描述,并在保持高度一致性的同时完成生成。此外,我们还与Sara进行了一些直接对比,尽管Sara未公开访问,我们使用了其公开的示例进行比较。

3a757533a118c12e07b8830c9e28ab9e.png
  • Sara展示了学习模拟多个屏幕内容的重要性,并强调保持一致性。

  • 示例中特别要求相机进行旋转。

  • Vidu在理解模拟相机旋转效果方面比Sara更深入。

在这个例子中,Sara展示了一个重要的示例,即需要学习模拟多个屏幕的内容,并保持较强的一致性。同时,该例子的特点是要求相机进行旋转。实际上,在这个生成示例中,Vidu能够比Sara理解得更深入,我们可以模拟出相机旋转的效果。当然,还有更多的内容。

98f297f88add42cb8f16c8baed15d6a7.png
  • 早期工作Text-to-3D Prolific Dreamer在3D内容生成领域取得显著进展。

  • 研究重点转向从单张图片生成3D内容,包括3D贴图。

  • 最新技术能在十秒内生成一个3D模型。

  • 相关技术成果已公开发布。

  • 基于此技术开发了微度生成视频的功能。

我这里就不展示了,另外一个是Go beyond Images的在3D内容的生成领域,我们早期的工作如Text-to-3D Prolific Dreamer在去年取得了显著进展。随后,我们专注于从单张图片到3D内容的创建,包括3D贴图的生成等。目前,最新的技术已能在约十秒内生成一个3D模型。这些最新成果已经公开发布。此外,我们还基于此技术开发了微度生成视频的功能。

3b9dc9db9ade3771f00c8d19c5c34157.png这是最新的研究成果。该研究使我们能够通过生成的视频片段实现4D重建,即采用一种高效的方法,将原本平面的视频转换为3D视频。此技术展示了多个实例,不仅支持3D内容的创建,还扩展了视频处理的能力。

3df99d1e1ff865454bde14ab06d4075e.png
  • 未来技术将支持创建3D环境,用于仿生模拟和智能体交互。

  • 扩散模型和深度生成模型不仅用于数据生成,还适用于多种任务。

  • 机器学习中,生成模型学习联合分布,通过贝叶斯公式得到生成式分类器。

  • 若联合分布精确,生成式分类器即为最优的贝叶斯分类器。

  • 联合分布通常未知,需要估计,生成式人工智能已发展出有效方法来逼近高维分布。

  • 分布拟合良好时,分类器性能提升。

未来的场景将允许我们生成3D环境,例如用于仿生模拟或智能体交互环境的构建。值得注意的是,扩散模型或深度生成模型不仅限于数据生成,还能执行多种其他任务。在机器学习领域,存在生成和判别两种模型,如分类器。生成模型的核心目标是学习联合分布,通过贝叶斯公式可得到预测的分类器,即生成式分类器。若联合分布精确,该分类器即为最优,称为贝叶斯分类器。然而,联合分布通常未知,需进行估计。当前,生成式人工智能领域已发展出灵活有效的方法来逼近高维分布。当分布拟合良好时,分类器性能亦将提升。接下来,我将展示一些实例,此前已有许多相关讨论。

670ee5b20985efb3bd2badaa836d4ee0.png
  • 2001年Ng和Jordan对比了生成式模型(如Naive Bayes)与判别式模型(如逻辑回归)。

  • 生成式模型学习速度快,能在较少数据下接近最优性能。

  • 生成式模型可能存在固有偏差,源于模型假设的不合理性。

  • 最新进展中,灵活的生成模型减少了偏差,提高了数据利用效率。

关于生成式与判别式模型的优缺点分析,可以追溯到2001年,由Ng和Jordan进行的经典研究。他们在这项研究中对比了生成式模型如Naive Bayes与判别式模型如逻辑回归。研究结论表明,生成式模型通常学习速度更快,意味着在较少的数据量下即可达到接近最优的性能。然而,生成式分类器可能存在固有偏差,这源于模型假设的不合理性,可能对结果产生影响。结合当前的最新进展,灵活的生成模型使得这种偏差减弱,强大的通用模型可能被利用以获得生成模型的另一优势,即在数据利用上更为高效,优于判别式模型。这是从经典研究中得到的启示,结合最新的研究进展更为有益。

db53de8309607ca1d259fac273c4de05.png
  • 研究背景:当前研究基于预训练范式。

  • 研究内容:重新评估经典结论在预训练范式下的有效性。

  • 研究结果:使用新的理论分析工具确认经典结论仍然有效。

  • 新发现:生成式分类器在数据使用上比判别式分类器更高效。

  • 其他发现:除数据高效利用外,无其他新发现。

比如现在我们都是在预训练这种范式下进行研究。在这种新的预训练范式下,我们前期进行了工作,重新审视了经典结论是否仍然成立。最终结果表明,通过使用新的理论分析工具,我们发现这些结论在预训练范式下仍然有效。具体来说,使用生成式分类器在某种意义上比判别式分类器更高效,尤其是在数据使用方面。这是一些新的结论。当然,除了前面提到的高效利用数据外,没有其他新的发现。

861f39b8420448c9200158b02fcae0ea.png
  • 研究发表于SMF论文,探讨了预训练扩散模型在对抗扰动中的应用。

  • 研究方法包括利用贝叶斯公式和扩散模型构建分类器。

  • 研究过程分为两步:最小化损失函数以最大化数据可能性,以及构建Diffusion Classifier。

  • 研究结果表明,该方法在对抗鲁棒性方面优于以往方法。

  • 扩散模型具有跨领域应用的潜力。

在高校之外,我们还进行了另一项研究,该研究发表于今年的SMF论文中。我们发现,通过预训练的扩散模型,可以将其转换为一种对抗扰动具有鲁棒性的分类器。其基本原理与之前的讨论相似,即通过预训练模型,利用贝叶斯公式构建分类模型,其中涉及扩散模型的学习。整个过程分为两步:首先,我们旨在最小化损失函数,实际上是最大化数据的可能性;其次,利用扩散模型构建Diffusion Classifier。最终结果显示,该方法在对抗鲁棒性方面显著优于以往的方法,这是最新的研究成果。此外,扩散模型还可应用于其他领域。

64a5c21d9537490026a16f8eb25ee2a4.png
  • 讨论了Offline IL(离线模仿学习)中的经典框架,其中优化QMID(Q值最大化)时伴随KL散度调节器。

  • 指出了核心问题是如何建模行为数据的μ分布,通常为了效率假设为简单分布如混合高斯或简单高斯。

  • 提出使用更强大的生成模型或扩散模型来增强μ分布的灵活性,以避免策略学习的局限性。

  • 强调了在更灵活的模型下进行推理和学习的挑战,并提出需要设计高效算法来应对这一挑战。

  • 提到这些讨论是在ICML2024会议的预讲会上进行的。

这也是我们在之前进行的一些探索。例如,在Offline IL(离线模仿学习)中,您拥有一些行为数据。在这种情况下,这是一个Offline IL的经典框架,即在优化QMID(Q值最大化)时,通常还会有一个调节器,用于与行为数据的分布进行KL散度的调节。从理论上讲,它具有解析解。但核心问题在于如何建模行为数据,即如何处理这里的μ分布。在许多工作中,为了计算效率,通常假设μ分布较为简单,如混合高斯或简单高斯。这种简化实际上限制了策略学习,可能导致学习到单一且非最优的策略。因此,在这种框架下,自然会考虑使用更强大的生成模型或扩散模型来建模行为数据,使μ分布更加灵活。当然,这也带来了一个挑战,即在更灵活的扩散模型下如何进行问题的推理或能力实现。针对这种更灵活的场景,可以设计一些高效的算法来实现推理和学习。这涉及到一些相关的工作。最后,因为今天是ICML2024会议的预讲会。

8ad3468f20d3bec1871a86e94c4098c6.png
  • 研究领域:对抗鲁棒性、PDE求解、Transformer架构优化、决策制定、大型模型对齐。

  • 研究方法:采用贝叶斯优化进行对抗攻击,开发基于Transformer的PDE求解预训练模型,利用稀疏性和低比特计算优化Transformer架构,使用频域分析工具进行决策制定。

  • 成果展示:可能是目前最大的可预训练PDE求解模型,近实时的决策制定能力。

  • 交流机会:邀请参加ICML的Poster环节与研究团队交流。

我也借此机会向大家简要介绍我们今年的一些相关工作。如果感兴趣,欢迎大家到ICML的Poster环节与我们的师生交流。我们的研究涉及对抗鲁棒性,采用基于贝叶斯优化的方法进行高效对抗攻击。此外,我们还开发了基于Transformer架构的PDE求解预训练模型,这可能是目前最大的可预训练PDE求解模型。同时,我们也探讨了如何在预训练过程中加速Transformer架构,包括利用稀疏性特征和低比特计算范式。在决策场景中,我们使用频域分析工具实现近实时的决策制定。此外,我们还进行了大型模型对齐的合作研究。欢迎大家关注这些工作,谢谢大家的聆听。

b84784ca277dd33517dfb9f29099f1a9.png
  • Vidu支持生成16秒视频,生成60秒视频的难度在于计算资源消耗和数据准备。

  • 生成更高清视频的方法包括控制模型内的压缩损失和提高分辨率的技巧。

  • 原生多模态架构需要根据不同默带的特点来设计,UVIT作为Transformer的扩展版本,可用于多种任务。

  • 在生成模型中,输入Z通常选择高斯分布,但也可以通过函数变换从均匀分布转换为高斯分布。

我们也收到了一些提问,请朱军教授过目,是否方便解答一下网友的疑惑。Vidu支持生成16秒视频。请问生成60秒视频的难度在哪里?有哪些解决办法?另外,如果解决Patch输入或切换无信押缩,生成更高清的视频。这个问题实际上是这样。确实,生成更长的视频有一些挑战。但基本上,如果你能生成8秒、16秒,包括像现在大家可以预见的32秒等长度的视频,底层的模型原理架构基本上都是相通的。然后在60秒或更长的话,如果基于同样的,比如说像Sara、Vidu这种方式来做,主要的挑战在于计算资源的消耗。它会比16秒消耗更多的计算算力。当然还包括数据,你需要更长的视频数据喂到模型里,让它学习。所以在数据准备上也会有一定挑战。生成更高清的话,实际上这里边,比如模型里面的表示上,在压缩损失上会做一些控制,另外还有一些提高分辨率的方法,实际上这些过去处理视频的技巧都可以用。第二个问题是原生多模态架构是怎样的?理想的原生多模态架构是怎样的?UVIT是否也能胜任视觉理解任务?对多模态的这种原生架构应该还在不断实践或优化过程中。但从我的理解,或者从我们过去做多模态数据、多模态信息处理的角度来说,要做比较好的多模态架构,首先一个准则就是你要能够充分理解或描述不同多模态的特点的信息来构建Hyper结构。我不太建议直接用一套架构或一种简单操作实现所有数据处理。当你在做这种时,你可能有很多假设,这些假设可能合适也可能不合适。所以我的基本原则是,在处理多模态时,你一定要充分理解不同默带的特点,来设计架构。UVIT本身,如果从网络来看,它并不是直接做生成的,实际上是Transformer的一个扩展版本。你可以用这个网络做其他任务。在今天讲的里面,我们将这种架构用于Diffusion的Denoising造成,或简单理解成造成预测模块。所以理论上来说,它也可以用于其他。第三个问题是输入Z为什么要是高斯?不能是均匀分布。这个问题是这样,在扩展模型里,如果你每一步都加高斯,实际上可以收敛到标准高斯。但如果你想做均匀分布,因为标准高斯和均匀分布之间有一个简单函数映射。所以相当于你在上面如果prefer从均匀分布开始,那你可能就加一个确定函数变换。它实际上就可以转化成标准高斯。所以它并不是最本质的问题。不过很多时候我们在定义生成模型时可能也会从均匀分布开始。事实上在计算机里,我们去模拟,要从高斯噪声里采样。我们实际实现的方式也是从均匀分布里先采样,再经过函数变换,来实现对高斯分布的采样。所以这两个并不冲突,只是一个选择问题。当然你可能还有其他非高斯或目标分布,在这种情况下实际上也有一些办法就可以将先验或一些约束考虑进去。这大概是我关于这几个问题的回答。

往期精彩文章推荐

10c68856c5fcaf2c9cc2fc79b4d251d8.png

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1800多位海内外讲者,举办了逾600场活动,超700万人次观看。

bc83063a3a8120466777a094292bf6fb.png

我知道你

在看

提出观点,表达想法,欢迎

留言

ccab09dffd91418709a85729db3cc28d.gif

点击 阅读原文 查看ICML预讲会讲者精彩分享!

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号