赞
踩
本文内容来自OPEN AI技术报告<<Video generation models as world simulators>>。
我们探索了在视频数据上进行大规模生成模型的训练。具体来说,我们联合训练了文本条件扩散模型,这些模型适用于不同时长、分辨率和纵横比的视频和图像。我们利用了一种基于Transformer的架构,该架构可以对视频和图像的潜在编码进行时空块操作。我们最大的模型Sora能够生成一分钟的高保真视频。我们的结果表明,扩展视频生成模型是构建通用物理世界模拟器的一条有前景的途径。
本技术报告主要关注两个核心方面:(1) 我们提出的方法,该方法能够将各种类型的视觉数据转化为统一表示,从而支持生成模型的大规模训练;(2) 对Sora模型的能力和局限性的定性评估。本报告中不包含模型和实现细节。
在先前的研究中,已经有许多工作使用各种方法对视频数据进行了生成建模,这些方法包括循环网络、生成对抗网络、自回归Transformers和扩散模型。然而,这些工作通常只关注某一狭窄类别的视觉数据、较短的视频或固定大小的视频。相比之下,Sora是一个通用的视觉数据模型,它能够生成涵盖不同时长、纵横比和分辨率的视频和图像,最长可达一分钟的高清视频。
Sora-TR-0
关键点分析:
综上所述,本技术报告介绍了一种将各种视觉数据统一表示的方法,并评估了Sora模型在视频生成方面的能力和局限性。这些工作为生成模型的大规模训练和视觉数据的通用建模提供了新的视角和思路。
我们从大型语言模型(LLM)中汲取灵感,这些模型通过训练互联网规模的数据来获得通用能力。LLM范式的成功部分归功于使用了能够优雅地统一文本多样模态(如代码、数学和各种自然语言)的标记(tokens)。在这项工作中,我们考虑了视觉数据的生成模型如何能够继承这些优点。LLM有文本标记,而Sora有视觉块。以前的研究已经表明,块是视觉数据模型的有效表示。我们发现,块是一种高度可扩展且有效的表示,用于在多种类型的视频和图像上训练生成模型。
分析:
在高级别上,我们通过首先将视频压缩到较低维度的潜在空间,随后将表示分解为时空块,从而将视频转化为块。
我们训练了一个能够降低视觉数据维度的网络。该网络以原始视频作为输入,并输出一个在时间和空间上都经过压缩的潜在表示。Sora在这个压缩的潜在空间内进行训练,并随后生成视频。我们还训练了一个对应的解码器模型,将生成的潜在表示映射回像素空间。
给定一个压缩的输入视频,我们提取一系列时空块,这些块充当Transformer的标记。由于图像只是单帧的视频,因此这种方案也适用于图像。我们基于块的表示使Sora能够在具有可变分辨率、时长和纵横比的视频和图像上进行训练。在推理时,我们可以通过在适当大小的网格中排列随机初始化的块来控制生成视频的大小。
Sora是一个扩散模型;给定输入的噪声块(以及像文本提示这样的条件信息),它被训练来预测原始的“干净”块。重要的是,Sora是一个扩散Transformer。Transformer已经在多个领域展示出了显著的缩放特性,包括语言建模、计算机视觉和图像生成。
在这项工作中,我们发现扩散Transformer作为视频模型也能有效地进行缩放。下面,我们展示了随着训练的进行,具有固定种子和输入的视频样本的比较。随着训练计算量的增加,样本质量显著提高。
scaling_0
scaling_1
scaling_2
过去图像和视频生成的方法通常会将视频调整、裁剪或修剪为标准大小,例如4秒长、256x256分辨率的视频。我们发现,直接以原始大小的数据进行训练会带来多种好处。
Sora可以采样宽屏1920x1080p视频、竖屏1080x1920视频以及介于这两者之间的任何分辨率视频。这让Sora能够直接以设备的原始纵横比创建内容。它还让我们在生成全分辨率内容之前快速制作较小尺寸的内容原型——所有这些都使用同一个模型。
sampling_0
sampling_1
sampling_2
我们通过实验发现,以视频的原始纵横比进行训练可以改善构图和取景。我们将Sora与我们的一个模型版本进行了比较,该版本将所有训练视频裁剪为正方形,这是训练生成模型时的常见做法。在正方形裁剪上训练的模型(左)有时会生成只有部分主体在视野中的视频。相比之下,Sora生成的视频(右)在取景上有所改善。
sampling_3
sampling_4
训练文本到视频的生成系统需要大量的带有相应文本字幕的视频。我们将DALL·E 330中引入的重新配字幕技术应用到视频中。我们首先训练一个高度描述性的字幕模型,然后使用它为训练集中的所有视频生成文本字幕。我们发现,在高度描述性的视频字幕上进行训练可以提高文本的保真度以及视频的整体质量。
与DALL·E 3类似,我们还利用GPT将用户的简短提示转化为更长的详细字幕,这些字幕会被发送到视频模型中。这使得Sora能够生成高质量的视频,准确地遵循用户的提示。
以上以及我们着陆页上的所有结果都展示了文本到视频的样本。但Sora也可以使用其他输入进行提示,例如预先存在的图像或视频。这种能力使Sora能够执行广泛的图像和视频编辑任务——创建完美循环的视频、将静态图像动画化、将视频向前或向后延长时间等。
Sora能够生成视频,只要提供图像和提示作为输入。下面我们展示了基于DALL·E 231和DALL·E 330图像生成的视频示例。
提示词:一只柴犬戴着贝雷帽和黑色高领毛衣。
prompting_1
提示词:一组多样化的怪物家族扁平化设计风格的怪物插图。这组怪物包括一只毛茸茸的棕色怪物、一只带有触须的光滑黑色怪物、一只带斑点的绿色怪物和一只小小的波点怪物,它们都在一个有趣的环境中互动。
prompting_3
提示词:一幅逼真的云朵图像,拼成了“SORA”的字样。
prompting_5
提示词:在一座装饰华丽的历史大厅里,巨大的海啸达到顶峰,并开始崩塌。两名冲浪者抓住时机,熟练地驾驭着海浪。
prompting_7
Sora还能够扩展视频,无论是向前还是向后。以下是四个从生成的视频片段开始向后扩展的视频。因此,这四个视频的开头各不相同,但最终都会导向相同的结局。
extend_1
extend_2
extend_4
我们可以使用这种方法将视频向前和向后扩展,以产生无缝的无限循环。
bike_1
扩散模型为从文本提示编辑图像和视频提供了大量方法。下面我们将其中一种方法SDEdit32应用于Sora。这项技术使Sora能够零样本转换输入视频的风格和环境。
Sora还能够生成图像。我们通过在一个时间跨度为一帧的空间网格中排列高斯噪声块来实现这一点。该模型可以生成可变大小的图像,最高可达2048x2048分辨率。
提示词:秋季女性的特写肖像照,细节极致,景深较浅
提示词:生机勃勃的珊瑚礁里挤满了五颜六色的鱼类和海洋生物
提示词:以无光泽绘画风格绘制的细节华丽的数字艺术画,画中有一只小老虎站在苹果树下
提示词:一个被雪覆盖的山村,有舒适的小屋和北极光表演,高细节和逼真的数码单反相机,50mm f/1.2
我们发现,当以大规模训练视频模型时,视频模型会展现出许多有趣的新兴能力。这些能力使Sora能够模拟物理世界中的人、动物和环境的一些方面。这些特性是在没有任何明确的3D、对象等的归纳偏置的情况下出现的,它们完全是规模现象。
3D一致性。Sora可以生成具有动态相机运动的视频。随着相机的移动和旋转,人和场景元素在三维空间中一致地移动。
simulation_0
simulation_1
远程连贯性和物体永久性。对于视频生成系统来说,在采样长视频时保持时间一致性是一个重大挑战。我们发现,尽管并非总是如此,但Sora通常能够有效地模拟短期和长期依赖关系。例如,即使人物、动物和物体被遮挡或离开画面,我们的模型也能使它们持续存在。同样,它可以在单个样本中生成同一角色的多个镜头,在整个视频中保持其外观。
simulation_3
与世界互动。Sora有时可以模拟以简单方式影响世界状态的动作。例如,画家可以在画布上留下新的笔触,这些笔触会随着时间的推移而持续存在,或者一个人可以吃汉堡并留下咬痕。
模拟数字世界。Sora还能够模拟人工过程——一个例子就是视频游戏。Sora可以在使用基本策略控制《我的世界》中的玩家的同时,以高保真度渲染游戏世界及其动态。这些能力可以通过提示Sora使用提到“Minecraft”的标题来零样本激发。
simulation_6
simulation_7
这些能力表明,视频模型的持续扩展是开发高性能的物理和数字世界模拟器以及其中存在的物体、动物和人物模拟器的一个有前景的途径。
discussion_0
作为模拟器,Sora目前存在许多局限性。例如,它不能准确地模拟许多基本相互作用的物理过程,如玻璃破碎。其他相互作用,如吃食物,并不总是导致物体状态的正确变化。我们在登陆页面上列举了模型的其他常见故障模式,如长时间样本中出现的不连贯性或物体的自发出现。
discussion_1
我们相信,Sora目前所具备的能力表明,视频模型的持续扩展是开发高性能的物理和数字世界模拟器,以及模拟其中存在的物体、动物和人物的一条有前景的道路。
Srivastava, Nitish, Elman Mansimov, and Ruslan Salakhudinov. "Unsupervised learning of video representations using lstms." International conference on machine learning. PMLR, 2015.↩︎
Chiappa, Silvia, et al. "Recurrent environment simulators." arXiv preprint arXiv:1704.02254 (2017).↩︎
Ha, David, and Jürgen Schmidhuber. "World models." arXiv preprint arXiv:1803.10122 (2018).↩︎
Vondrick, Carl, Hamed Pirsiavash, and Antonio Torralba. "Generating videos with scene dynamics." Advances in neural information processing systems 29 (2016).↩︎
Tulyakov, Sergey, et al. "Mocogan: Decomposing motion and content for video generation." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.↩︎
Clark, Aidan, Jeff Donahue, and Karen Simonyan. "Adversarial video generation on complex datasets." arXiv preprint arXiv:1907.06571 (2019).↩︎
Brooks, Tim, et al. "Generating long videos of dynamic scenes." Advances in Neural Information Processing Systems 35 (2022): 31769-31781.↩︎
Yan, Wilson, et al. "Videogpt: Video generation using vq-vae and transformers." arXiv preprint arXiv:2104.10157 (2021).↩︎
Wu, Chenfei, et al. "Nüwa: Visual synthesis pre-training for neural visual world creation." European conference on computer vision. Cham: Springer Nature Switzerland, 2022.↩︎
Ho, Jonathan, et al. "Imagen video: High definition video generation with diffusion models." arXiv preprint arXiv:2210.02303 (2022).↩︎
Blattmann, Andreas, et al. "Align your latents: High-resolution video synthesis with latent diffusion models." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.↩︎
Gupta, Agrim, et al. "Photorealistic video generation with diffusion models." arXiv preprint arXiv:2312.06662 (2023).↩︎
Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems 30 (2017).↩︎↩︎
Brown, Tom, et al. "Language models are few-shot learners." Advances in neural information processing systems 33 (2020): 1877-1901.↩︎↩︎
Dosovitskiy, Alexey, et al. "An image is worth 16x16 words: Transformers for image recognition at scale." arXiv preprint arXiv:2010.11929 (2020).↩︎↩︎
Arnab, Anurag, et al. "Vivit: A video vision transformer." Proceedings of the IEEE/CVF international conference on computer vision. 2021.↩︎↩︎
He, Kaiming, et al. "Masked autoencoders are scalable vision learners." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.↩︎↩︎
Dehghani, Mostafa, et al. "Patch n'Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution." arXiv preprint arXiv:2307.06304 (2023).↩︎↩︎
Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.↩︎
Kingma, Diederik P., and Max Welling. "Auto-encoding variational bayes." arXiv preprint arXiv:1312.6114 (2013).↩︎
Sohl-Dickstein, Jascha, et al. "Deep unsupervised learning using nonequilibrium thermodynamics." International conference on machine learning. PMLR, 2015.↩︎
Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models." Advances in neural information processing systems 33 (2020): 6840-6851.↩︎
Nichol, Alexander Quinn, and Prafulla Dhariwal. "Improved denoising diffusion probabilistic models." International Conference on Machine Learning. PMLR, 2021.↩︎
Dhariwal, Prafulla, and Alexander Quinn Nichol. "Diffusion Models Beat GANs on Image Synthesis." Advances in Neural Information Processing Systems. 2021.↩︎
Karras, Tero, et al. "Elucidating the design space of diffusion-based generative models." Advances in Neural Information Processing Systems 35 (2022): 26565-26577.↩︎
Peebles, William, and Saining Xie. "Scalable diffusion models with transformers." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.↩︎
Chen, Mark, et al. "Generative pretraining from pixels." International conference on machine learning. PMLR, 2020.↩︎
Ramesh, Aditya, et al. "Zero-shot text-to-image generation." International Conference on Machine Learning. PMLR, 2021.↩︎
Yu, Jiahui, et al. "Scaling autoregressive models for content-rich text-to-image generation." arXiv preprint arXiv:2206.10789 2.3 (2022): 5.↩︎
Betker, James, et al. "Improving image generation with better captions." Computer Science. https://cdn.openai.com/papers/dall-e-3. pdf 2.3 (2023): 8↩︎↩︎
Ramesh, Aditya, et al. "Hierarchical text-conditional image generation with clip latents." arXiv preprint arXiv:2204.06125 1.2 (2022): 3.↩︎
Meng, Chenlin, et al. "Sdedit: Guided image synthesis and editing with stochastic differential equations." arXiv preprint arXiv:2108.01073 (2021).↩︎
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。