一键Run带你体验扩散模型的魅力

作者：Gausst松鼠会 | 2024-04-07 05:42:26

踩

一键Run带你体验扩散模型的魅力

本文分享自华为云社区《爆圈Sora横空出世，AGI通用人工智能时代真的要来了吗？一键Run带你体验扩散模型的魅力！》，作者：码上开花_Lancer。

Sora这几天的爆炸性新闻，让所有人工智能相关从业者及对应用感兴趣的人群都感到沸腾，震撼到央视也在进行相关的讨论，简直可以和2023年初ChatGPT讨论带来的热潮一般。所以它到底为什么这么火？

一、什么是SORA?

Sora 是OpenAI最新发布的文本生成视频模型，不仅可以生成长达一分钟的视频，且能完全遵照用户的 Prompt 并保持视觉质量。

OpenAI 这个公司的格局非常大，他想要做 World Simulators（世界模拟器），做通用AGI，而不仅仅是文字或者图像视频领域的内容，他希望的是帮助人们解决需要现实世界交互的问题。单从OpenAI 发布的sora模型的论文可以看出来：

图片中文翻译：

视频生成模型作为世界模拟器我们探讨了在视频数据上对生成模型进行大规模训练。具体来说，我们共同训练了文本条件扩散模型，这些模型能够处理不同时长、分辨率和宽高比的视频和图像。我们利用了一种变压器架构，该架构能够处理视频和图像潜在代码的空间时间块。我们最大的模型，Sora，能够生成一分钟的高保真视频。我们的结果表明，扩展视频生成模型是构建通用物理世界模拟器的有希望的道路。

在文生视频领域，Sora将带来短视频的智能化变革，打破当前内容平台等额原有数据壁垒，短视频创作的生态护城河，同时Sora融入短视频工作流，极大的增强用户的体验，降低创作难度和成本，极大拓展创作者的能力边界，激发短视频创作空间。

在视频创作领域，画面的稳定性至关重要。如果要呈现出优质的效果，创作者需要具备高超的视频剪辑技能和相关基础。然而，SORA这次的表现真是逆天！通过简单的文字描述，它能生成画面稳定、理解能力强的长视频。

SORA的技术思路与众不同，完全碾压了传统方法。它不再仅关注二维像素的变化，而是专注于语义理解的变化。从以往的视频画面生成，转变为故事逻辑的生成。这种创新思路让人瞠目结舌，展示了技术的无限可能性

二、SORA背后原理的推测

根据OpenAI最新发布的技术报告，Sora背后的“text-to-video”模型基于Diffusion Transformer Model。这种模型结合了Transformer架构和扩散模型，用于生成图像、视频和其他数据。

实际上，Sora是一个基于Transformer的扩散模型。这类模型不仅在理论上具有创新性，而且在实际应用中也显示出了强大的潜力。例如，DiT模型（Sora的基础）和GenTron模型在图像和视频生成等领域都已经取得了巨大的成功，这些创新性的模型为我们展示了技术的无限可能性。目前Sora技术没有公开，大家对它都有不同猜测。DIT提出人谢赛宁：

1）Sora应该是建立在DiT这个扩散Transformer之上的。

2）Sora可能有大约30亿个参数,(引用论文模型0.13B, 32X算力)。

3）训练数据是Sora 成功的最关键因素。

4）主要的挑战是如何解决错误累积问题并随着时间的推移保持质量/一致。

DiT模型：Meta提出的完全基于transformer架构的扩散模型，不仅将transformer成功应用在扩散模型，还探究了transformer架构在扩散模型上的scalability能力。

GenTron模型：一种基于Transformer的扩散模型，在针对SDXL的人类评估中，GenTron在视觉质量方面取得了51.1%的胜率（19.8%的平局率），在文本对齐方面取得了42.3%的胜率（42.9%的平局率）。

DiT模型

Scalable Diffusion Models with Transformers ---- 基于transformer的扩散模型，称为Diffusion Transformers（DiTs），Diffusion Transformer Model（DiT）的设计空间、扩展行为、网络复杂度和样本质量之间的关系。这些研究结果表明，通过简单地扩展DiT并使用高容量的骨干网络，可以在类条件256x256 ImageNet生成基准测试中实现最新的2.27 FID。与像素空间扩散模型相比，DiTs在使用的Gflops只是其一小部分，因此具有较高的计算效率。此外，DiTs还可以应用于像素空间，使得图像生成流程成为混合方法，使用现成的卷积VAEs和基于transformer的DDPMs。

扩散模型中引入了transformer类的标准设计，以取代传统的U-Net设计，从而提供了一种新的架构选择。

引入了潜在扩散模型（LDMs），通过将图像压缩为较小的空间表示，并在这些表示上训练扩散模型，从而解决了在高分辨率像素空间中直接训练扩散模型的计算问题。

那对于我们开发者用户想要强烈体验文生视频的乐趣，那里可以体验呢？今天给大家介绍下Stable Video Diffusion (SVD)，一起在华为云一键Run体验其中的乐趣：

三、Stable Video Diffusion (SVD) 扩散模型的图像生成视频的体验

1. 案例简介

Stable Video Diffusion (SVD) 是一种扩散模型，它将静止图像作为条件帧，并从中生成视频。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/376746