Sora技术报告: Video generation models as world simulators作为世界模拟器的视频生成模型_sora作为一个扩散模型,可以给定输入噪声补丁(以及文本提示等调节信息),它被训练来

作者：凡人多烦事01 | 2024-03-18 20:01:05

踩

sora作为一个扩散模型,可以给定输入噪声补丁(以及文本提示等调节信息),它被训练来

Sora技术报告: Video generation models as world simulators作为世界模拟器的视频生成模型

原文
 飞书文档

1. Overview

优点：一个在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型。
实现：We leverage a transformer architecture that operates on spacetime patches of video and image latent codes 我们利用一个 transformer 架构，该架构对视频和图像潜在编码的时空块进行操作。
意义：Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world. 我们的结果表明，扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。

2. Sora 概览

本技术报告重点关注:
（1）我们将所有类型的视觉数据转化为统一表示的方法，从而能够大规模训练生成模型
（2）对 Sora 的能力和局限性进行定性评估。本报告不包含模型和实施细节
亮点：
先前的工作通常关注一小类视觉数据、较短的视频或固定大小的视频，Sora 是视觉数据的通用模型，它可以生成不同时长、长宽比和分辨率的视频和图像，最多可达一分钟的高清视频。

3. Turning visual data into patches 将视觉数据转化为补丁

灵感来自自然语言处理领域的token，LLM 范式的成功部分归功于token的使用，这些token优雅地统一了文本代码、数学和各种自然语言的不同模式。
文本用token，视频用patch. 我们发现patch是一种高度可扩展且有效的表示形式，可用于在不同类型的视频和图像上训练生成模型.
At a high level，我们首先将视频压缩到低维潜在空间，然后将representation分解为时空patches，从而将视频转换为patches.
在这里插入图片描述

4. Video compression network 视频压缩网络

我们训练了一个降低视觉数据维度的网络(Auto-Encoding Variational Bayes)。该网络将原始视频作为输入，并输出在时间和空间上压缩的潜在表示。 Sora 在这个压缩的潜在空间中接受训练并随后生成视频。我们还训练了相应的解码器模型，将生成的latents映射回像素空间。

5. Spacetime latent patches 时空潜伏斑块

给定一个压缩的输入视频，我们提取一系列时空patch，充当transformer token。该方案也适用于图像，因为图像只是具有单帧的视频。我们基于patch的表示使 Sora 能够对不同分辨率、持续时间和长宽比的视频和图像进行训练。在推理时，我们可以通过在适当大小的网格中排列随机初始化的patch来控制生成视频的大小。

6. Scaling transformers for video generation用于视频生成的缩放变压器

Sora是一个扩散模型；给定输入噪声patch（以及文本提示等调节信息），它被训练来预测原始的“干净”patch。
在这里插入图片描述

在这项工作中，我们发现diffusion transformers也可以有效地缩放为视频模型。下面，我们展示了训练过程中具有固定种子和输入的视频样本的比较。随着训练计算的增加，样本质量显著提高。

7. Variable durations, resolutions, aspect ratios可变的持续时间、分辨率、宽高比

过去的图像和视频生成方法通常会将视频调整大小、裁剪或修剪为标准尺寸，例如 256x256 分辨率的 4 秒视频。我们发现，对原始大小的数据进行训练有几个好处。

7.1 Sampling flexibility 采样灵活性

Sora 可以采样宽屏 1920x1080p 视频、垂直 1080x1920 视频以及介于两者之间的所有视频。这使得 Sora 可以直接以其原生宽高比为不同设备创建内容。它还使我们能够在以全分辨率生成之前快速以较低尺寸制作原型内容 - 所有这些都使用相同的模型。

7.2 Improved framing and composition改进的框架和构图

我们根据经验发现，以原始长宽比对视频进行训练可以改善构图和取景。我们将 Sora 与将所有训练视频裁剪为正方形的模型版本进行比较，这是训练生成模型时的常见做法。在方形裁剪（左）上训练的模型有时会生成仅部分可见主体的视频。相比之下，Sora（右）的视频的取景效果有所改善。

8. Language understanding 语言理解

训练文本到视频生成系统需要大量带有相应文本字幕的视频。我们将 DALL·E 3(30) 中引入的重新字幕技术应用于视频。我们首先训练一个高度描述性的字幕生成器模型，然后使用它为训练集中的所有视频生成文本字幕。我们发现，对高度描述性视频字幕进行训练可以提高文本保真度以及视频的整体质量。
与 DALL·E 3 类似，我们还利用 GPT 将简短的用户提示转换为较长的详细字幕，然后发送到视频模型。这使得 Sora 能够生成准确遵循用户提示的高质量视频。

9. Prompting with images and videos通过图像和视频进行提示

Sora 也可以通过其他输入进行提示，例如预先存在的图像或视频。此功能使 Sora 能够执行各种图像和视频编辑任务 - 创建完美的循环视频、动画静态图像、及时向前或向后扩展视频等。

9.1 Animating DALL·E images DALL·E 图像动画

Sora 能够生成提供图像和提示作为输入的视频。下面我们展示了基于 DALL·E 2 和 DALL·E 3 图像生成的示例视频。

9.2 Extending generated videos 扩展生成的视频

Sora 还能够在时间上向前或向后扩展视频。下面是四个视频，它们都是从生成的视频片段开始向后延伸的。因此，这四个视频的开头都不同，但所有四个视频的结局都是相同的。
我们可以使用此方法向前和向后扩展视频以产生无缝的无限循环。

9.3 Video-to-video editing 视频到视频编辑

扩散模型启用了多种根据文本提示编辑图像和视频的方法。下面我们将其中一种方法 SDEdit 应用于 Sora。这项技术使 Sora 能够零镜头地改变输入视频的风格和环境。

9.4 Connecting videos 连接视频

我们还可以使用 Sora 在两个输入视频之间逐渐进行插值，从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。在下面的示例中，中心的视频插值在左侧和右侧的相应视频之间。

10. Image generation capabilities 图像生成功能

Sora 还能够生成图像。为此，我们将高斯噪声的斑块排列在时间范围为一帧的空间网格中。该模型可以生成可变大小的图像，分辨率高达 2048x2048。
在这里插入图片描述

11. Emerging simulation capabilities新兴的仿真功能

我们发现，视频模型在经过大规模训练后，会表现出许多有趣的新兴能力。这些能力使 Sora 能够模拟物理世界中的人、动物和环境的某些方面。这些特性的出现并没有对三维、物体等产生任何明确的归纳偏差–它们纯粹是规模现象。
3D consistency. 3D 一致性。Sora 可以生成摄像机动态运动的视频。随着摄像机的移动和旋转，人物和场景元素在三维空间中的移动会保持一致。

Long-range coherence and object permanence. 远距离相干性和物体持久性。视频生成系统面临的一个重大挑战是在对长视频进行采样时保持时间一致性。我们发现，Sora通常（尽管并非总是）能够有效地对短期和长期依赖关系进行建模。例如，我们的模型可以保留人、动物和物体，即使它们被遮挡或离开框架。同样，它可以在单个样本中生成同一角色的多个镜头，在整个视频中保持它们的外观。

Interacting with the world.与世界互动。Sora 有时可以以简单的方式模拟影响世界状态的动作。例如，画家可以在画布上留下新的笔触，这些笔触会随着时间的推移而持续存在，或者一个人可以吃汉堡并留下咬痕。

Simulating digital worlds.模拟数字世界。Sora还能够模拟人工过程，例如视频游戏。Sora 可以同时通过基本策略控制 Minecraft 中的玩家，同时还可以高保真地渲染世界及其动态。这些功能可以通过提示 Sora 提及“Minecraft”来零触发。

这些能力表明，视频模型的持续缩放是开发物理和数字世界以及生活在其中的物体、动物和人的高性能模拟器的一条有希望的道路。

12. Discussion 讨论

Sora 目前作为模拟器表现出许多局限性。例如，它不能准确地模拟许多基本相互作用的物理特性，比如玻璃破碎。其他交互，如吃食物，并不总是能产生物体状态的正确变化。我们在登录页面中列举了模型的其他常见失效模式，例如在长时间样本中出现的不连贯性或物体的自发出现。

声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：【wpsshop博客】