赞
踩
Sora是一个人工智能模型,能根据文字说明创造出逼真而富有想象力的场景。
我们探索在视频数据上对生成模型进行大规模训练。具体来说,我们在不同时长、分辨率和长宽比的视频和图像上联合训练文本条件扩散模型。我们利用转换器架构,对视频和图像潜码的时空片段进行操作。我们最大的模型 Sora 能够生成一分钟的高保真视频。我们的研究结果表明,扩展视频生成模型是构建物理世界通用模拟器的一条可行之路。
本技术报告的重点是:(1) 我们将各种类型的视觉数据转化为统一表示法的方法,这种表示法可用于生成模型的大规模训练;(2) 对 Sora 的能力和局限性的定性评估。本报告不包括模型和实现细节。
之前的许多研究都使用了多种方法对视频数据进行生成建模,包括递归网络,生成对抗网络, 自回归变换器 和扩散模型 等。这些作品通常只关注视觉数据的一个狭义类别、较短的视频或固定大小的视频。Sora 是一种通用的视觉数据模型--它可以生成不同时长、长宽比和分辨率的视频和图像,最高可生成一分钟的高清视频。
我们从大型语言模型中汲取灵感,这些模型通过在互联网规模的数据上进行训练,获得了通用能力。LLM 范式的成功,部分得益于标记的使用,这些标记优雅地统一了文本代码、数学和各种自然语言的不同模式。在这项工作中,我们将考虑如何继承视觉数据生成模型的这些优点。LLM 有文本标记,而 Sora 有视觉补丁。此前已有研究表明,补丁是视觉数据模型的一种有效表示方法。我们发现,对于在不同类型的视频和图像上训练生成模型来说,补丁是一种高度可扩展且有效的表示方法。
在高层次上,我们首先将视频压缩到低维潜在空间,然后将表示分解为时空补丁,从而将视频转换为补丁。
我们训练了一个可降低视觉数据维度的网络。该网络将原始视频作为输入,并输出经过时间和空间压缩的潜在表示。Sora 在此压缩潜空间内进行训练并生成视频。我们还训练了一个相应的解码器模型,将生成的潜像映射回像素空间。
给定一个压缩输入视频,我们提取一系列时空补丁作为转换标记。这一方案也适用于图像,因为图像只是单帧视频。我们基于补丁的表示法使 Sora 能够在不同分辨率、持续时间和长宽比的视频和图像上进行训练。在推理时,我们可以通过在适当大小的网格中排列随机初始化的补丁来控制生成视频的大小。
Sora 是一个扩散模型;给定输入的噪声斑块(以及文本提示等条件信息)后,经过训练,它能预测出原始的 "干净 "斑块。重要的是,Sora 是一个扩散变换器。变换器在语言建模、计算机视觉和图像生成等多个领域都表现出卓越的扩展特性。
在这项工作中,我们发现扩散变换器作为视频模型也能有效扩展。下面,我们展示了固定种子和输入的视频样本在训练过程中的对比。随着训练计算量的增加,样本质量明显提高。
以往的图像和视频生成方法通常会将视频调整大小、裁剪或修剪成标准尺寸,例如 256x256 分辨率的 4 秒视频。我们发现,在原始尺寸的数据上进行训练有如下好处:
采样灵活性
Sora 可以采样宽屏 1920x1080p 视频、竖屏 1080x1920 视频以及介于两者之间的所有视频。这样, Sora 就能直接以原始长宽比为不同设备创建内容。它还能让我们在生成全分辨率内容之前,以较小的尺寸快速制作原型——所有这些都使用相同的模型。
改进取景和构图
Sora 我们根据经验发现,在原始长宽比的视频上进行训练可以改善构图和取景。我们将 Sora 与将所有训练视频裁剪成正方形的模型版本进行了比较,这是训练生成模型时的常见做法。在正方形裁剪下训练的模型(左图)有时生成的视频只能看到主体的一部分。相比之下,Sora (右)生成的视频取景更好。
训练文本到视频生成系统需要大量带有相应文字说明的视频。我们将 DALL-E 3 中引入的重配字幕技术应用于视频。我们首先训练一个高度描述性的字幕模型,然后用它为训练集中的所有视频制作文本字幕。我们发现,在高度描述性的视频字幕上进行训练可提高文本的保真度以及视频的整体质量。
与 DALL-E 3 类似,我们也利用 GPT 将简短的用户提示转化为较长的详细字幕,并发送给视频模型。这使得 Sora 能够准确地按照用户提示生成高质量的视频。
上面和我们的登陆页面中的所有结果都显示了文本到视频的示例。但是,Sora 还可以使用其他输入,如已有的图像或视频。这种功能使 Sora 能够执行各种图像和视频编辑任务–创建完美的循环视频、静态图像动画、向前或向后延长视频时间等。
DALL-E 动画图像
只要输入图像和提示,Sora 就能生成视频。下面我们展示了根据 DALL-E 2 和 Sora DALL-E 3 图像生成的视频示例。
扩展生成的视频
Sora 还能向前或向后延展视频。下面是四段视频,它们都是从一段生成的视频开始向后延伸的。因此,这四段视频的开头都与其他视频不同,但结局都是一样的。
我们可以使用这种方法向前和向后延伸视频,以产生无缝的无限循环。
视频到视频编辑
扩散模型为根据文本提示编辑图像和视频提供了大量方法。下面我们将这些方法中的 SDEdit 应用到 Sora 中。这项技术可使 Sora 在零拍摄的情况下转换输入视频的风格和环境。
连接视频
我们还可以使用 Sora 在两个输入视频之间逐步插值,在主题和场景构成完全不同的视频之间创建无缝过渡。在下面的示例中,中间的视频插接在左右两边相应的视频之间。
Sora 还能生成图像。为此,我们将高斯噪声斑块排列在空间网格中,时间范围为一帧。该模型可生成不同大小的图像,最高分辨率可达 2048x2048。
我们发现,视频模型在经过大规模训练后,会表现出许多有趣的新兴能力。这些能力使 Sora 能够模拟物理世界中的人、动物和环境的某些方面。这些特性的出现并没有对三维、物体等产生任何明确的归纳偏差–它们纯粹是规模现象。
3D 一致性。Sora 可以生成摄像机动态运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中的移动会保持一致。
长距离一致性和对象持久性。视频生成系统面临的一个重大挑战是在对长视频采样时保持时间一致性。我们发现,Sora经常(但并非总是)能够有效地模拟短距离和长距离依赖关系。例如,即使人、动物和物体被遮挡或离开画面,我们的模型也能保持它们的存在。同样,它还能在单个样本中生成同一人物的多个镜头,并在整个视频中保持其外观。
与世界互动。Sora有时可以模拟一些影响世界状态的简单动作。例如,画家可以在画布上留下新的笔触,并随着时间的推移而持续,或者一个人可以吃汉堡并留下咬痕。
模拟数字世界。Sora 还能模拟人工进程,视频游戏就是一个例子。Sora 可以通过基本策略同时控制 Minecraft 中的玩家,同时高保真地呈现世界及其动态。只需在 Sora 的提示字幕中提及 “Minecraft”,就能零距离激发这些功能。
这些功能表明,继续扩大视频模型的规模,是开发物理和数字世界以及其中的物体、动物和人的高功能模拟器的一条大有可为的途径。
作为一款模拟器,Sora 目前还存在许多局限性。例如,它不能准确模拟许多基本交互的物理现象,如玻璃碎裂。其他交互,如吃食物,并不总能产生正确的物体状态变化。我们在登陆页面中列举了该模型的其他常见失效模式,例如在长时间样本中出现的不连贯现象或物体的自发出现。
我们相信,Sora今天所拥有的能力证明,不断扩大视频模型的规模,是开发物理和数字世界以及其中的物体、动物和人的功能模拟器的一条大有可为的道路。
Srivastava, Nitish, Elman Mansimov, and Ruslan Salakhudinov. “Unsupervised learning of video representations using lstms.” International conference on machine learning. PMLR, 2015.↩︎
Chiappa, Silvia, et al. “Recurrent environment simulators.” arXiv preprint arXiv:1704.02254 (2017).↩︎
Ha, David, and Jürgen Schmidhuber. “World models.” arXiv preprint arXiv:1803.10122 (2018).↩︎
Vondrick, Carl, Hamed Pirsiavash, and Antonio Torralba. “Generating videos with scene dynamics.” Advances in neural information processing systems 29 (2016).↩︎
Tulyakov, Sergey, et al. “Mocogan: Decomposing motion and content for video generation.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.↩︎
Clark, Aidan, Jeff Donahue, and Karen Simonyan. “Adversarial video generation on complex datasets.” arXiv preprint arXiv:1907.06571 (2019).↩︎
Brooks, Tim, et al. “Generating long videos of dynamic scenes.” Advances in Neural Information Processing Systems 35 (2022): 31769-31781.↩︎
Yan, Wilson, et al. “Videogpt: Video generation using vq-vae and transformers.” arXiv preprint arXiv:2104.10157 (2021).↩︎
Wu, Chenfei, et al. “Nüwa: Visual synthesis pre-training for neural visual world creation.” European conference on computer vision. Cham: Springer Nature Switzerland, 2022.↩︎
Ho, Jonathan, et al. “Imagen video: High definition video generation with diffusion models.” arXiv preprint arXiv:2210.02303 (2022).↩︎
Blattmann, Andreas, et al. “Align your latents: High-resolution video synthesis with latent diffusion models.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.↩︎
Gupta, Agrim, et al. “Photorealistic video generation with diffusion models.” arXiv preprint arXiv:2312.06662 (2023).↩︎
Vaswani, Ashish, et al. “Attention is all you need.” Advances in neural information processing systems 30 (2017).↩︎↩︎
Brown, Tom, et al. “Language models are few-shot learners.” Advances in neural information processing systems 33 (2020): 1877-1901.↩︎↩︎
Dosovitskiy, Alexey, et al. “An image is worth 16x16 words: Transformers for image recognition at scale.” arXiv preprint arXiv:2010.11929 (2020).↩︎↩︎
Arnab, Anurag, et al. “Vivit: A video vision transformer.” Proceedings of the IEEE/CVF international conference on computer vision. 2021.↩︎↩︎
He, Kaiming, et al. “Masked autoencoders are scalable vision learners.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.↩︎↩︎
Dehghani, Mostafa, et al. “Patch n’Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution.” arXiv preprint arXiv:2307.06304 (2023).↩︎↩︎
Rombach, Robin, et al. “High-resolution image synthesis with latent diffusion models.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.↩︎
Kingma, Diederik P., and Max Welling. “Auto-encoding variational bayes.” arXiv preprint arXiv:1312.6114 (2013).↩︎
Sohl-Dickstein, Jascha, et al. “Deep unsupervised learning using nonequilibrium thermodynamics.” International conference on machine learning. PMLR, 2015.↩︎
Ho, Jonathan, Ajay Jain, and Pieter Abbeel. “Denoising diffusion probabilistic models.” Advances in neural information processing systems 33 (2020): 6840-6851.↩︎
Nichol, Alexander Quinn, and Prafulla Dhariwal. “Improved denoising diffusion probabilistic models.” International Conference on Machine Learning. PMLR, 2021.↩︎
Dhariwal, Prafulla, and Alexander Quinn Nichol. “Diffusion Models Beat GANs on Image Synthesis.” Advances in Neural Information Processing Systems. 2021.↩︎
Karras, Tero, et al. “Elucidating the design space of diffusion-based generative models.” Advances in Neural Information Processing Systems 35 (2022): 26565-26577.↩︎
Peebles, William, and Saining Xie. “Scalable diffusion models with transformers.” Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.↩︎
Chen, Mark, et al. “Generative pretraining from pixels.” International conference on machine learning. PMLR, 2020.↩︎
Ramesh, Aditya, et al. “Zero-shot text-to-image generation.” International Conference on Machine Learning. PMLR, 2021.↩︎
Yu, Jiahui, et al. “Scaling autoregressive models for content-rich text-to-image generation.” arXiv preprint arXiv:2206.10789 2.3 (2022): 5.↩︎
Betker, James, et al. “Improving image generation with better captions.” Computer Science. https://cdn.openai.com/papers/dall-e-3. pdf 2.3 (2023): 8↩︎↩︎
Ramesh, Aditya, et al. “Hierarchical text-conditional image generation with clip latents.” arXiv preprint arXiv:2204.06125 1.2 (2022): 3.↩︎
Meng, Chenlin, et al. “Sdedit: Guided image synthesis and editing with stochastic differential equations.” arXiv preprint arXiv:2108.01073 (2021).↩︎
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。