当前位置:   article > 正文

OpenAI Sora背后的关键技术:Diffusion transformers

OpenAI Sora背后的关键技术:Diffusion transformers

 ChatGPT狂飙160天,世界已经不是之前的样子。

新建了人工智能中文站https://ai.weoknow.com
每天给大家更新可用的国内可用chatGPT资源

 发布在https://it.weoknow.com/


OpenAI的Sora可以动态生成视频和交互式3D环境,是GenAI尖端技术的卓越展示 ——一个真正的里程碑。

part1

但奇怪的是,导致它的一项创新,俗称diffusion transformer的人工智能模型架构,在几年前就出现在人工智能研究领域。

diffusion transformer还为AI初创公司Stability AI的最新图像生成器Stable Diffusion 3.0提供支持,它似乎准备通过使GenAI模型的规模扩大到超出以前的范围来改变GenAI领域。

纽约大学计算机科学教授谢赛宁(Saining Xie) 于2022年6月开始了催生diffusion transformer的研究项目。谢赛宁(Saining Xie)与他的学生威廉·皮布尔斯(William Peebles)一起,当时皮布尔斯在Meta的人工智能研究实验室实习,现在是Sora在OpenAI的联合负责人。结合了机器学习中的两个概念——diffusion and the transformer — to create the diffusion transformer(扩散和变压器——创建了扩散变压器)。

大多数现代人工智能驱动的媒体生成器,包括OpenAI的DALL-E 3,都依赖一种称为diffusion的过程来输出图像、视频、语音、音乐、3D 网格、艺术品等。

这不是最直观的想法,但基本上,噪声会慢慢添加到媒体(例如图像)中,直到无法识别。重复此操作以构建噪声媒体数据集。当扩散模型对此进行训练时,它会学习如何逐渐减去噪声,逐步接近目标输出媒体(例如新图像)。

图片

part 2

扩散模型通常有一个“backbone”或某种引擎,称为U-Net。U-Net主干网学习估计要消除的噪声,并且做得很好。但U-Net很复杂,具有专门设计的模块,可以大大减慢扩散管道。

幸运的是,transformer可以取代U-Net,并在此过程中提高效率和性能。

Transformer是复杂推理任务的首选架构,为 GPT-4、Gemini 和 ChatGPT 等模型提供支持。它们有几个独特的特征,但到目前为止,Transformer的定义特征是它们的“注意力机制”。对于每一个输入数据(在扩散的情况下,图像噪声),Transformer都会权衡每个其他输入(图像中的其他噪声)的相关性,并从中提取数据以生成输出(图像噪声的估计)。

注意力机制不仅使转换器比其他模型架构更简单,而且使架构可并行化。换句话说,可以通过显着但并非无法实现的计算量增加来训练越来越大的Transformer模型。

“Transformer对扩散过程的贡献类似于引擎升级,”谢在接受TechCrunch电子邮件采访时表示。“变压器的引入……标志着可扩展性和有效性的重大飞跃。这在像Sora这样的模型中尤其明显,它受益于大量视频数据的训练,并利用广泛的模型参数来展示Transformer在大规模应用时的变革潜力。”

图片

prat 3

那么,鉴于diffusion transformer的想法已经存在了一段时间,为什么像Sora和Stable Diffusion这样的项目花了数年时间才开始利用它们呢?纽约大学计算机科学教授谢赛宁认为,是因为直到最近可扩展骨干模型的重要性才被人们认识到。

“Sora团队确实超越了规模,向人们展示了这种方法在大规模上可以做多少事情”他说。“他们已经明确表示,从现在开始U-Net已经过时,transformer将用于扩散模型。”

diffusion transformer应该是现有扩散模型的简单替换——无论模型生成图像、视频、音频还是其他形式的媒体。目前训练扩散变压器的过程可能会导致一些效率低下和性能损失,但谢认为这个问题可以在长期内得到解决。”

“主要的收获非常简单:忘记U-Net并改用Transformer,因为它们更快、工作更好并且更具可扩展性”。

end

纽约大学计算机科学教授谢赛宁:“我有兴趣将内容理解和创作领域整合到diffusion transformer的框架内。目前,这就像两个不同的世界——一个用于理解,另一个用于创造。“

我设想未来这些方面将被集成,并且我相信实现这种集成需要底层架构的标准化,而Transformer是实现此目的的理想选择。”

如果Sora和Stable Diffusion 3.0是diffusion transformer的预览,我们将迎来一场疯狂的旅程。


 ChatGPT狂飙160天,世界已经不是之前的样子。

新建了人工智能中文站https://ai.weoknow.com
每天给大家更新可用的国内可用chatGPT资源

 发布在https://it.weoknow.com/


不久前,Sora发布,再次震惊国内外

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/213378
推荐阅读
相关标签
  

闽ICP备14008679号