繁依Fanyi0

这个屌丝很懒，什么也没留下！

热门标签

Sora视频模型报告全解析

作者：繁依Fanyi0 | 2024-02-22 00:48:33

踩

Sora视频模型报告全解析

我们探索视频数据生成模型的大规模训练。具体来说，我们在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型。我们利用对视频和图像潜在代码的时空补丁进行操作的变压器架构。我们最大的模型 Sora 能够生成一分钟的高保真视频。我们的结果表明，扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。

报告核心内容：
（1）我们将所有类型的视觉数据转化为统一表示的方法，从而能够大规模训练生成模型。
（2）对 Sora 的能力和局限性进行定性评估。本报告不包含模型和实施细节。

省流版

1、核心数据处理将视频数据整合成一个一个的Patch，方便统一训练数据，利用扩散Transformer架构

2、功能效果除了可以实现基础的文生视频外，实际上还有非常惊艳的视频延展，视频编辑，视频连接等多种功能，具体可以看官网的demo

3、模型涌现了3D一致性，远距离物体相关性等等卓越的能力

1. 主要内容概述

摘要中指出，OpenAI探索了生成模型在视频数据的大规模训练，特别的，训练了基于文本条件的扩散模型，模型利用了Transformer架构，能够生成长达一分钟的视频，研究结果显示大规模的视频生成模型是构建通用的真实物理世界模拟器的一种很有潜力的方式

报告主要聚焦于两点

1 将所有类型的视觉数据转换为统一表示的方法，从而实现生成模型的大规模训练

2 对能力和局限性进行定性评估

具体的模型和实施细节并不包括在该报告中

以往的工作利用循环神经网络，自回归Transformer，和扩散模型等等，这些工作往往只聚焦于视频数据的一小部分，比如很短的视频或者固定的尺寸分辨率，Sora打破了这种已有的束缚，能够生成不同时长（最长60s），不同分辨率的视频

2. 训练过程

Sora 的训练受到了大语言模型（Large Language Model）的启发。这些模型通过在互联网规模的数据上进行训练，从而获得了广泛的能力。

从技术上看，Sora和DALLE-3一样都是采用扩散模型架构，即从一个随机噪音开始逐步去噪生成一个视频，这个一个比较成熟的技术方案。不过最近谷歌的几个视频生成工作如VideoPoet是采用基于Transformer的自回归方案。在文生图领域，扩散模型是主导，那么在视频生成领域自回归会不会更胜一筹，这个还有待未来的验证。

我们知道，在语言模型中，我们会将字符转换为一个一个的token，这样可以优雅地统一各种文本形式，比如代码，数学公式和不同的自然语言。

在该工作中，也进行了这样的统一，将视频数据转换为一个一个的patch，事实证明patches是一种有效的表征。

首先将一帧一帧的视频数据经过一个编码器，转换为低纬度的潜在空间的表示形式（目的是在时间上和空间上进行压缩）同时训练了一个对应的练解码器将这种潜在空间的内容转换为像素空间，

接下来将这种表现形式分解为时空潜在patches，

然后将这些patches输入给扩散Transformer结构，使得训练能够利用不同分辨率大小，时长的视频数据。在推理阶段，我们可以通过在适当大小的网格中排列随机初始化的patches来控制生成的视频的大小。

实际训练中，随机生成噪声直到不断去噪恢复到原来的patch，

证明了扩散Transformer结构在视频数据非常有效。

过去的图像和视频生成方法通常将视频调整大小、裁剪或修剪为标准大小，例如，分辨率为 256x256 的 4 秒视频。

OpenAI发现，以原生大小对数据进行训练有几个好处：

采样灵活性
以原始纵横比对视频进行训练可以改善构图，而裁剪可能会导致很大的问题

我们首先训练一个高度描述性的字幕器模型，然后使用它为训练集中的所有视频生成文本字幕。OpenAI发现，对高度描述性视频字幕的训练可以提高文本保真度以及视频的整体质量。

3. 功能效果展示

3.1 文本输入生成视频

这个就不用多说了哈哈哈哈，最基础的功能

3.2 图片和文本共同输入

3.3 视频延展

可以根据已有的视频按照时间向前延展或者向后延展

最后可以生成一些有趣的效果

3.4 视频到视频的编辑

比如更改视频中的风格，背景等等

看示例

左边图是原始视频，让左边的车跑在丛林里

3.5 连接视频

如图可以将左边视频的汽车和右边视频豹子两个元素连接在一起到中间的

3.6 生成图片

对你没有看错

虽然Sora最初是为了视频来的，但是由于训练中有图片所以也可以进行图片的生成

4. 涌现的能力

4.1 3D一致性

Sora 可以生成具有动态相机运动的视频。随着摄像机的移动和旋转，人物和场景元素在三维空间中始终如一地移动。

4.2 远距离相关性和物体持久性

视频生成系统面临的一个重大挑战是在对长视频进行采样时保持时间一致性。Sora通常（尽管并非总是）能够有效地对短期和长期依赖关系进行建模。例如，模型可以保留人、动物和物体，即使它们被遮挡或离开框架。同样，它可以在单个样本中生成同一角色的多个镜头，从而在整个视频中保持它们的外观。

4.3 与世界互动

Sora 有时可以以简单的方式模拟影响世界状态的动作。例如，画家可以在画布上留下新的笔触，这些笔触会随着时间的推移而持续存在，或者一个人可以吃汉堡并留下咬痕。

4.4 模拟数字世界

Sora还能够模拟人工过程，例如视频游戏。Sora 可以同时通过基本策略控制 Minecraft 中的玩家，同时还可以高保真地渲染世界及其动态。这些功能可以通过提示 Sora 提及“Minecraft”来零触发。

5. 论文关键点

OpenAI 的研究论文《Video generation models as world simulators》探讨了在视频数据上进行大规模训练生成模型的方法。这项研究特别关注于文本条件扩散模型，这些模型同时在视频和图像上进行训练，处理不同时长、分辨率和宽高比的数据。研究中提到的最大模型 Sora 能够生成长达一分钟的高保真视频。以下是论文的一些关键点：

统一的视觉数据表示：
研究者们将所有类型的视觉数据转换为统一的表示，以便进行大规模的生成模型训练。Sora 使用视觉补丁（patches）作为其表示方式，类似于大型语言模型（LLM）中的文本标记。

视频压缩网络：
研究者们训练了一个网络，将原始视频压缩到一个低维潜在空间，并将其表示分解为时空补丁。Sora 在这个压缩的潜在空间中进行训练，并生成视频。

扩散模型：
Sora 是一个扩散模型，它通过预测原始“干净”的补丁来从输入的噪声补丁中生成视频。扩散模型在语言建模、计算机视觉和图像生成等领域已经显示出了显著的扩展性。

视频生成的可扩展性：
Sora 能够生成不同分辨率、时长和宽高比的视频，包括全高清视频。这种灵活性使得 Sora 能够直接为不同设备生成内容，或者在生成全分辨率视频之前快速原型化内容。

语言理解：
为了训练文本到视频生成系统，需要大量的视频和相应的文本标题。研究者们应用了在 DALL·E 3 中引入的重新描述技术，首先训练一个高度描述性的标题生成器，然后为训练集中的所有视频生成文本标题。

图像和视频编辑：
Sora 不仅能够基于文本提示生成视频，还可以基于现有图像或视频进行提示。这使得 Sora 能够执行广泛的图像和视频编辑任务，如创建完美循环的视频、动画静态图像、向前或向后扩展视频等。

模拟能力：
当视频模型在大规模训练时，它们展现出了一些有趣的新兴能力，使得 Sora 能够模拟物理世界中的某些方面，如动态相机运动、长期一致性和对象持久性等。

讨论：尽管 Sora 展示了作为模拟器的潜力，但它仍然存在许多局限性，例如在模拟基本物理交互（如玻璃破碎）时的准确性不足。研究者们认为，继续扩展视频模型是开发物理和数字世界模拟器的有前途的道路。

报告链接

Video generation models as world simulators

参考：OpenAI王炸Sora模型技术报告详解-CSDN博客

文生视频：Sora模型报告总结-CSDN博客

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/127676

Sora视频模型报告全解析

省流版

1. 主要内容概述

2. 训练过程

采样灵活性

以原始纵横比对视频进行训练可以改善构图，而裁剪可能会导致很大的问题

3. 功能效果展示

3.1 文本输入生成视频

3.2 图片和文本共同输入

3.3 视频延展

3.4 视频到视频的编辑

3.5 连接视频

3.6 生成图片

4. 涌现的能力

4.1 3D一致性

4.2 远距离相关性和物体持久性

4.3 与世界互动

4.4 模拟数字世界

5. 论文关键点

报告链接