赞
踩
Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models
公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群)
目录
Sora 是一款由 OpenAI 于 2024 年 2 月发布的文本到视频生成的人工智能模型。该模型经过训练,能够根据文本指令生成真实或富有想象力的场景视频,展现了在模拟物理世界方面的潜力。根据公开的技术报告和逆向工程,本文全面回顾了该模型的背景、相关技术、应用、尚存的挑战以及文本到视频人工智能模型未来的发展方向。我们首先追溯了 Sora 的发展历程,并调查了用于构建这个 “世界模拟器” 的基础技术。接着,我们详细描述了 Sora 在从电影制作和教育到营销等多个行业中的应用和潜在影响。我们讨论了需要解决的主要挑战和限制,比如确保视频生成的安全性和公正性。最后,我们探讨了 Sora 和视频生成模型在未来的发展,以及该领域的进展如何能够促使人工智能与人类之间以新的方式互动,提升视频生成的生产力和创造力。
项目页面:https://github.com/lichao-sun/SoraReview
Sora 的技术报告:https://openai.com/sora
技术。Sora 的核心是一个预训练的扩散 transformer [4]。transformer 模型在许多自然语言任务中已经被证明是可扩展和有效的。与强大的大型语言模型(LLMs)如 GPT-4 类似,Sora 能够解析文本并理解复杂的用户指令。为了使视频生成在计算上更高效,Sora 使用时空潜在补丁(spacetime latent patches)作为其构建块。具体而言,Sora 将原始输入视频压缩为潜在的时空表示。然后,从压缩视频中提取一系列潜在时空补丁,以封装视觉外观和短时间间隔内的运动动态。这些补丁类似于语言模型中的单词标记,为 Sora 提供了详细的视觉短语,用于构建视频。Sora 的文本到视频生成是通过一个扩散 transformer 模型完成的。从一个充满视觉噪音的帧开始,该模型迭代地去噪图像并根据提供的文本提示引入特定的细节。实质上,生成的视频通过多步的细化过程出现,每一步都使视频更加符合所需的内容和质量。
Sora 的亮点。Sora 的能力在各个方面都有深远的影响:
局限性和机遇。虽然 Sora 的成就突显了人工智能领域的重大进展,但仍然存在挑战。描绘复杂的动作或捕捉微妙的面部表情是模型可以改进的领域之一。此外,诸如减轻生成内容中的偏见和防止有害的视觉输出之类的伦理考虑强调了开发者、研究人员和更广泛社区负责任使用的重要性。确保Sora 的输出始终安全和公正是一个主要挑战。视频生成领域正在迅速发展,学术和工业研究团队正在不懈努力。竞争激烈的文本到视频模型的出现表明,Sora 可能很快就会成为一个动态生态系统的一部分。这种协作和竞争的环境促进了创新,推动了视频质量的提高和帮助提高工作者的生产力,使人们的生活更加有趣。
我们的贡献。基于已发表的技术报告和我们的逆向工程,本文首次全面回顾了 Sora 的背景、相关技术、新兴应用、当前局限性和未来机会。
在计算机视觉(CV)领域,在深度学习革命之前,传统的图像生成技术依赖于像纹理合成 [5] 和纹理映射 [6] 这样的手工制作特征的方法。然而,这些方法在生成复杂和生动图像方面存在局限。
生成对抗网络(GANs)[7] 和变分自编码器(VAEs)[8] 的引入标志着一个重要的转折点,由于其在各种应用中的卓越能力。随后的发展,如流(flow)模型 [9] 和扩散模型 [10],进一步提高了图像生成的细节和质量。人工智能生成内容(Artificial Intelligence Generated Content,AIGC)技术的最新进展使内容创作民主化,使用户能够通过简单的文本指令生成所需的内容 [11]。
在过去的十年中,生成式计算机视觉(CV)模型的发展已经采取了各种路径,如图 3 所示。这个领域在成功应用 Transformer 架构 [12](如 BERT [13] 和 GPT [14] 所示)于自然语言处理后,开始明显转变。在计算机视觉领域,研究人员通过将 Transformer 架构与视觉组件结合,使其能够应用于下游 CV 任务,例如 Vision Transformer(ViT)[15] 和 Swin Transformer [16]。与 Transformer 的成功平行的,扩散模型在图像和视频生成领域也取得了显著进展 [10]。扩散模型提供了一个数学上合理的框架,用 U-Net [17] 将噪音转化为图像,其中 U-Net 通过学习在每一步预测和减轻噪音来促进此过程。
自 2021 年以来,人工智能的重点已经转向了能够解释人类指令的生成语言和视觉模型,被称为多模态模型。例如,CLIP [18] 是一个开创性的视觉语言模型,将 Transformer 架构与视觉元素结合,便于其在大量文本和图像数据集上进行训练。通过从一开始整合视觉和语言知识,CLIP 可以在多模型生成框架中作为图像编码器运作。另一个值得注意的例子是 Stable Diffusion [19],这是一种多才多艺的文本到图像人工智能模型,以其适应性和易用性而受到赞誉。它采用 Transformer 架构和潜在扩散技术来解码文本输入并生成各种风格的图像,进一步展示了多模型人工智能的进展。
在 ChatGPT 于 2022 年 11 月发布后,我们见证了 2023 年商业文本到图像产品的出现,如 Stable Diffusion [19]、Midjourney [20]、DALL-E 3 [21]。这些工具使用户能够通过简单的文本提示生成高分辨率和高质量的新图像,展示了人工智能在创造性图像生成中的潜力。然而,由于视频的时间复杂性,从文本到图像到文本到视频的转变是具有挑战性的。尽管在工业和学术界进行了大量努力,大多数现有的视频生成工具,如 Pika [22] 和 Gen-2 [23],仅限于生成几秒钟的短视频片段。在这个背景下,Sora 代表了一个重大突破,类似于 ChatGPT 在自然语言处理领域的影响。Sora 是第一个能够根据人类指令生成长达一分钟视频的模型,标志着生成式人工智能研究和开发的一个里程碑。为了方便访问视觉生成模型的最新进展,最近的工作已被编制并提供在附录和我们的 GitHub中。
视觉模型的缩放定律。在对大型语言模型(LLMs)进行缩放定律的研究中,自然而然地会问,视觉模型的发展是否遵循类似的缩放定律。最近,Zhai 等人 [24] 表明,对于拥有足够训练数据的 ViT模型,性能-计算前沿大致遵循(饱和的)幂定律。紧随其后,谷歌研究 [25] 提出了一种高效稳定地训练 22B 参数 ViT 的方法。结果显示,可以通过使用冻结模型生成嵌入,然后在其上训练薄层(thin layers)来实现出色的性能。作为一种大型视觉模型(LVM),Sora 与这些缩放原则保持一致,在文本到视频生成中展现出几种新兴的能力。这一重要进展强调了 LVM 在实现类似 LLM 中所见的进步的潜力。
新兴能力。LLMs 中的新兴能力是在特定规模下表现出的复杂行为或功能,通常与模型参数的大小相关,这些行为或功能并未被显式地由开发人员编程或预料到。这些能力之所以被称为 “新兴”,是因为它们是由于模型在各种数据集上进行全面训练以及其庞大的参数数量而出现的。这种组合使得模型能够形成连接和进行推理,超越了简单的模式识别或死记硬背。通常,这些能力的出现不能简单地通过从较小规模模型的性能进行外推来预测。虽然许多 LLMs,如 ChatGPT 和 GPT-4,表现出新兴能力,但在 Sora 出现之前,展示类似能力的视觉模型却很少见。根据 Sora 的技术报告,它是第一个展示出已确认的新兴能力的视觉模型,标志着计算机视觉领域的一个重要里程碑。
除了其新兴能力,Sora 还表现出其他显著的能力,包括遵循指令、视觉提示工程和视频理解。Sora 功能的这些方面代表了视觉领域的重大进步,并将在后续章节中进行探讨和讨论。
在核心本质上,Sora 是一个扩散 transformer [4],具有灵活的采样维度,如图 4 所示。它分为三个部分:(1) 一个时空压缩器首先将原始视频映射到潜在空间。(2) 一个 Vision Transformer (ViT) 然后处理经过标记的潜在表示,并输出去噪的潜在表示。(3) 一个类似于 CLIP [26] 的调节机制接收了以语言模型增强的用户指令和可能的视觉提示,以引导扩散模型生成风格化或主题化的视频。经过许多去噪步骤后,生成的视频的潜在表示被获取,然后与相应的解码器映射回像素空间。在本节中,我们旨在对 Sora 使用的技术进行逆向工程,并讨论一系列相关工作。
Sora 的一个显著特点是其能够在原生大小上进行训练、理解和生成视频和图像 [3],如图 5 所示。传统方法通常会调整视频的大小、裁剪或调整视频的纵横比以适应统一的标准,通常是具有固定低分辨率的正方形帧的短片 [27][28][29]。这些样本通常以更宽的时间跨度生成,并依赖于单独训练的帧插入和分辨率渲染模型作为最后一步,从而在视频中创建不一致性。利用扩散 transformer 架构 [4](参见第3.2.4节),Sora 是第一个接纳视觉数据多样性的模型,能够在各种视频和图像格式中进行采样,包括宽屏 1920x1080p 视频、垂直 1080x1920p 视频以及介于两者之间的所有内容,而不损害它们的原始尺寸。
在原生大小的数据上进行训练显著提高了生成视频的构图和框架。实证研究结果表明,通过保持原始的纵横比,Sora 可以实现更自然和连贯的视觉叙事。与在统一剪裁的正方形视频上训练的模型进行比较,如图 6 所示,Sora 表现出明显的优势。由 Sora 生成的视频呈现出更好的构图,确保主体完全呈现在场景中,而不是由于正方形剪裁而导致的有时截断的视图。
对原始视频和图像特征的微妙理解和保留标志着生成模型领域的重大进步。Sora 的方法不仅展示了更真实、更引人入胜的视频生成的潜力,还强调了在生成人工智能中实现高质量结果的多样性的重要性。Sora 的训练方法与理查德·萨顿(Richard Sutton)的《沉痛的教训》[30] 的核心原则一致,该原则认为利用计算而非人设计的特征可以实现更有效和灵活的人工智能系统。就像扩散 transformer 的原始设计追求简单和可扩展性 [31] 一样,Sora 的在原生大小的数据上进行训练的策略避开了传统人工智能对人为抽象的依赖,而选择了一种随着计算能力扩展而通用的方法。在本节的其余部分,我们尝试逆向工程 Sora 的架构设计,并讨论实现这一惊人特性的相关技术。
为了有效处理包括图像和视频在内的各种视觉输入,这些输入具有不同的持续时间、分辨率和纵横比,一个关键的方法涉及将所有形式的视觉数据转化为统一的表示,这有助于生成模型的大规模训练。具体而言,Sora 通过将视频首先压缩为较低维度的潜在空间,然后将表示分解为时空补丁来对视频进行分片处理。然而,Sora 的技术报告 [3] 仅呈现了一个高层次的想法,使得对于研究社区来说难以复制。在本节中,我们尝试逆向工程可能的成分和技术路径。此外,我们将讨论可行的替代方案,这些方案可以复制 Sora 的功能,借鉴现有文献中的见解。
Sora 的视频压缩网络(或视觉编码器)旨在降低输入数据的维度,特别是原始视频,并输出一个在时间和空间上都被压缩的潜在表示,如图 7 所示。根据技术报告中的参考文献,压缩网络建立在变分自编码器(VAE)或矢量量化-VAE(VQ-VAE)[32] 的基础上。然而,如技术报告中所述,如果不使用调整大小和裁剪,对于 VAE 将视觉数据映射到统一且固定大小的潜在空间是具有挑战性的。我们总结了两种不同的实现来解决这个问题:
空间补丁压缩: 这涉及将视频帧转换为固定大小的补丁,类似于 ViT [15] 和 MAE [33]中采用的方法(见图 8),然后将它们编码到潜在空间中。这种方法特别适用于容纳不同分辨率和纵横比的视频,因为它通过处理单个补丁来编码整个帧。随后,这些空间标记被组织成一个时空潜在表示。这种技术强调了几个关键考虑因素:
时空补丁压缩: 这种技术旨在封装视频数据的空间和时间维度,提供全面的表示。这种技术不仅通过考虑帧间的运动和变化,超越了仅分析静态帧的范畴,从而捕捉到视频的动态方面。采用 3D卷积是实现这种整合的一种直观而有效的方法 [37]。图形说明和与纯粹的空间补丁化的比较如图 9所示。与空间补丁压缩类似,使用预定的卷积核参数(例如固定的核大小、步幅和输出通道)进行空时补丁压缩会由于被处理的视频输入的特征不同而导致潜在空间的尺寸变化。这种变化主要是由于视频的持续时间和分辨率不同而引起的。为了缓解这一挑战,空间补丁化采用的方法在这个背景下同样适用且有效。
总结一下,我们对基于 VAE 或其变体如 VQ-VQE 的两种补丁级压缩方法进行了逆向工程,因为对补丁的操作更灵活,可以处理不同类型的视频。由于 Sora 的目标是生成高保真度的视频,因此使用了大的补丁大小或卷积核大小以实现高效的压缩。在这里,我们预计采用固定大小的补丁,以实现简单性、可扩展性和训练稳定性。但是,也可以使用不同大小的补丁 [39],以使潜在空间中整个帧或视频的维度保持一致。然而,这可能导致无效的位置编码,并对解码器生成具有不同大小潜在补丁的视频提出挑战。
在压缩网络部分仍然存在一个关键问题:如何处理潜在空间维度的可变性(即来自不同视频类型的潜在特征块或补丁的数量),然后将这些补丁输入到扩散 transformer 的输入层。在这里,我们讨论几种解决方案。
根据 Sora 的技术报告和相应的参考文献,“patch n' pack”(PNP)[40]很可能是解决方案。PNP将来自不同图像的多个补丁打包成一个序列,如图 10 所示。该方法受到自然语言处理中使用的示例打包(example packing)的启发 [41],该示例打包通过删除 token 有效地对可变长度输入进行训练。在这里,补丁化和 token 嵌入步骤需要在压缩网络中完成,但 Sora 可能会进一步为扩散 transformer token 进行潜在的补丁化,就像 Diffusion Transformer 所做的一样[4]。
无论是否有第二轮的补丁化,我们都需要解决两个问题,如何以紧凑的方式打包这些 token,以及如何控制哪些 token 应该被丢弃。
对于第一个问题,使用一种简单的贪婪方法,该方法将示例添加到具有足够剩余空间的第一个序列。一旦不能再放入更多示例,序列将填充填充 token,产生进行批处理操作所需的固定序列长度。这样一个简单的打包算法可能会导致显着的填充,这取决于输入长度的分布。另一方面,我们可以通过调整序列长度和限制填充来控制我们采样的分辨率和帧数,以确保高效的打包。
对于第二个问题,一种直观的方法是丢弃相似的 token [42, 43, 33, 44],或者像 PNP 一样,应用丢弃率调度器。然而值得注意的是,时空一致性是 Sora 的一个很好的特性。在训练过程中,丢弃 token 可能会忽略细粒度的细节。因此,我们认为 OpenAI 可能会使用一个超长的上下文窗口,并将来自视频的所有 token 都打包在一起,尽管这样做在计算上是昂贵的,例如,多头注意力 [45, 46] 算子在序列长度上呈二次成本。具体而言,来自长时间视频的时空潜在补丁可以打包在一个序列中,而来自多个短时间视频的潜在补丁可以在另一个序列中连接在一起。
我们讨论了 Sora 可能使用的两种数据预处理技术解决方案。由于建模的灵活性和可扩展性的特点,这两种解决方案都在补丁级别进行。与先前的方法不同,先前的方法中,视频被调整大小、裁剪或修剪到标准大小,Sora 在其原始大小的数据上进行训练。尽管存在一些好处(详细分析请参见第 3.2.1 节),但它带来了一些技术挑战,其中最重要的之一是神经网络不能本质上处理可变持续时间、分辨率和纵横比的视觉数据。通过逆向工程,我们认为 Sora 首先将视觉补丁压缩成低维度的潜在表示,然后将这些潜在补丁或进一步补丁化的潜在补丁排列成一个序列,然后在将它们输入到扩散 transformer 的输入层之前,在这些潜在补丁中注入噪声。Sora 采用了时空补丁化,因为这是一种实现简单的方法,它可以通过高信息密度的 token 有效减少上下文长度,并减少后续建模时间信息的复杂性。
对于研究界,我们建议使用成本效益的替代视频压缩和表示解决方案,包括使用预训练的检查点(例如,压缩网络)[47]、缩短上下文窗口、使用轻量级建模机制,如(分组的)多查询注意力[48, 49] 或高效架构(例如 Mamba [50])、对数据进行降采样和丢弃 token(如果需要)。在视频建模的效果和效率之间的权衡是一个值得探讨的重要研究主题。
图像扩散 Transformer(DiT)。传统的扩散模型 [51, 52, 53] 主要利用包含下采样和上采样块的卷积 U-Net 作为去噪网络的骨干。然而,最近的研究表明,U-Net 架构对扩散模型的良好性能并不是关键。通过结合更灵活的 Transformer 架构,基于 Transformer 的扩散模型可以使用更多的训练数据和更大的模型参数。在这方面,DiT [4] 和 U-ViT [54] 是首批采用视觉 Transformer 进行潜在扩散模型的工作之一。与 ViT 类似,DiT 采用了多头自注意层和一个点式前馈网络,交叉层归一化和缩放层。此外,如图 11 所示,DiT 通过自适应层归一化(AdaLN)结合额外的 MLP 层进行条件建模,该层用于零初始化,将每个残差块初始化为恒等函数,从而大大稳定了训练过程。DiT 的可扩展性和灵活性经过实证验证。DiT 成为扩散模型的新骨干。在 U-ViT 中,如图 11 所示,他们将所有输入(包括时间、条件和噪声图像补丁)都视为 token,并提出了浅层和深层 Transformer 之间的长跳连接。结果表明,基于 CNN 的 U-Net 中的下采样和上采样算子并不总是必要的,U-ViT 在图像和文本到图像生成中取得了创纪录的 FID 分数。
类似于 Masked AutoEncoder (MAE) [33],Masked Diffusion Transformer (MDT) [55] 将掩码潜在建模纳入扩散过程中,以明确增强图像合成中目标语义部分之间的上下文关系学习。具体而言,如图 12 所示,MDT 在训练过程中使用侧插值(side-interpolation)进行额外的掩码 token 重建任务,以提高训练效率,并为推断学习强大的上下文感知位置嵌入。与 DiT [4] 相比,MDT 在性能和学习速度方面表现更好。Hatamizadeh 等人 [56] 在时间条件建模中引入了 Diffusion Vision Transformers (DiffiT),该模型使用时间相关的自注意(TMSA)模块来模拟采样时间步长上的动态去噪行为。此外,DiffiT 在像素空间和潜在空间中使用了两种混合分层体系结构,以有效去噪,并在各种生成任务中取得了新的最先进结果。总体而言,这些研究在采用视觉 Transformers 进行图像潜在扩散方面取得了有希望的结果,为未来在其他模态上的研究铺平了道路。
视频扩散 Transformer。在文本到图像(T2I)扩散模型的基础上,近期的研究集中在实现扩散 Transformer 在文本到视频(T2V)生成任务中的潜力。由于视频的时间性质,应用 DiT 在视频领域的关键挑战有:i) 如何将视频在空间和时间上压缩到一个潜在空间中以进行高效去噪;ii) 如何将压缩的潜在转换为补丁并将其馈送到 Transformer 中;以及iii) 如何处理长时间和空间依赖性,确保内容的一致性。请参考第 3.2.3 节解决第一个挑战。在这一部分,我们重点讨论基于 Transformer 的去噪网络架构,这些架构设计用于在空间和时间上压缩的潜在空间中运行。我们对OpenAI Sora 技术报告的参考文献中描述的两项重要工作(Imagen Video [29] 和 Video LDM [36])进行了详细的审查。
Imagen Video [29] 是由 Google Research 开发的文本到视频生成系统,它利用了一系列扩散模型,包括 7 个子模型,执行文本条件视频生成、空间超分辨率和时间超分辨率,将文本提示转换为高清视频。如图 13 所示,
基础视频和超分辨率模型以时空可分离的方式使用 3D U-Net 架构。该架构通过将时空注意力和卷积层与空间对应部分编织在一起,以有效捕捉帧间依赖关系。它采用 v-预测参数化以获得数值稳定性,并使用条件增强以促进模型之间的并行训练。该过程涉及对图像和视频的联合训练,将每个图像视为一帧以利用更大的数据集,并使用无分类器的引导 [57] 以提高提示的保真度。采用渐进蒸馏 [58] 来简化采样过程,显著减少计算负担同时保持感知质量。结合这些方法和技术,Imagen Video 不仅能够生成高保真度的视频,而且具有显著的可控性,可以生成多样的视频、文本动画和各种艺术风格的内容。
Blattmann等人 [36] 建议将 2D 潜在扩散模型转化为视频潜在扩散模型(视频 LDM)。他们通过在现有的空间层中添加一些事后时间层(post-hoc temporal layers)到 U-Net 主干和 VAE 解码器中来实现这一目标,该解码器学习对齐单个帧。这些时间层在编码的视频数据上进行训练,而空间层保持不变,使模型能够利用大型图像数据集进行预训练。LDM 的解码器经过微调,以实现像素空间中的时间一致性,并在时域上对扩散模型的上采样器进行时间对齐,以提高空间分辨率。为了生成非常长的视频,模型被训练以在给定一定数量的上下文帧的情况下预测未来帧,从而在采样过程中实现无分类器的引导。为了实现高时域分辨率,视频合成过程被分为关键帧生成和在这些关键帧之间插值。在级联 LDM 之后,使用 DM 进一步将 Video LDM 的输出扩大 4 倍,确保高空间分辨率同时保持时间一致性。这种方法使得以计算效率的方式生成全局一致的长视频成为可能。此外,作者展示了将预训练的图像 LDMs(例如,稳定扩散)转化为文本到视频模型的能力,仅通过训练时间对齐层,实现分辨率高达 1280 × 2048 的视频合成。
级联扩散模型用于空间和时间上采样。Sora 能够生成高分辨率的视频。通过审查现有的研究以及我们的逆向工程,我们推测 Sora 还利用了级联扩散模型体系结构 [59],该体系结构由基础模型和许多时空细化器模型组成。考虑到在高分辨率情况下使用注意力机制的计算成本高且性能提升有限,注意模块不太可能在基础扩散模型和低分辨率扩散模型中得到广泛使用。为了保持空间和时间场景的一致性,由于先前的研究表明对于视频/场景生成而言,时间一致性比空间一致性更为重要,Sora 可能利用一种有效的训练策略,即使用更长的视频(用于时间一致性)和较低分辨率。此外,考虑到其在预测原始潜在 x 或噪声 ϵ 方面的卓越性能,Sora 很可能使用 v-参数化扩散模型[58]。
潜在编码器。为了训练效率,大多数现有作品都利用了稳定扩散 [60, 61] 的预训练 VAE 编码器作为初始化模型检查点。然而,编码器缺乏时域压缩能力。尽管一些作品建议仅微调解码器以处理时域信息,但解码器在处理视频时域数据的压缩潜在空间中的性能仍然不理想。根据技术报告,我们的逆向工程显示,与使用现有的预训练 VAE 编码器不同,Sora 很可能使用一个从头开始在视频数据上训练的时空 VAE 编码器,其性能优于具有视频导向压缩潜在空间的现有模型。
用户主要通过自然语言指令,即文本提示 [62, 63],与生成式 AI 模型互动。模型指令调整旨在增强 AI 模型准确跟随指令的能力。这种提升的指令跟随能力使模型能够生成更接近人类对自然语言查询的响应的输出。我们从对大型语言模型(LLMs)和文本到图像模型(如 DALL·E 3)的指令跟随技术进行回顾开始我们的讨论。 为了增强文本到视频模型跟随文本指令的能力,Sora 采用了与DALL·E 3 类似的方法。该方法包括训练一个描述性的标题生成器,并利用生成的数据进行微调。由于指令调整,Sora 能够满足广泛的用户请求,确保对指令中的细节进行仔细关注,并生成与用户需求精确匹配的视频。
对 LLMs 遵循指令的能力进行了广泛的探讨 [64, 65, 66]。这种能力使得 LLMs 能够阅读、理解并适当地回应描述未见任务的指令,而无需示例。通过在格式为指令的任务混合上进行微调 [64, 66],即指令调整,获得并增强了 LLMs 的指令跟随能力。Wei 等人 [65] 表明,经过指令调整的LLMs 在未见任务上显著优于未调整的 LLMs。指令跟随能力将 LLMs 转变为通用任务求解器,标志着 AI 发展历史的范式转变。
DALL·E 3 中的指令跟随问题通过一种具有假设的标题改进方法来解决,即模型训练的文本-图像对的质量决定了结果文本到图像模型的性能 [67]。数据的质量差,特别是存在大量噪声数据和省略大量视觉信息的简短标题,导致许多问题,如忽略关键词和词序,以及误解用户意图 [21]。标题改进方法通过使用详细而描述性的标题对现有图像进行重新标题,来解决这些问题。该方法首先训练一个图像标题生成器,即一个视觉语言模型,以生成精确和描述性的图像标题。然后,通过这个标题生成器生成的描述性图像标题用于对文本到图像模型进行微调。具体而言,DALL·E 3 采用对比标题生成器(CoCa)[68] 来联合训练图像标题生成器,其结构与 CLIP [26] 和语言模型目标相结合。该图像标题生成器包括用于提取语言信息的图像编码器、单模态文本编码器和多模态文本解码器。它首先在单模态图像和文本嵌入之间使用对比损失,然后是多模态解码器输出的标题损失。生成的图像标题生成器在涵盖主要对象、周围环境、背景、文本、风格和色彩的图像详细描述上进一步进行微调。文本到图像模型的训练数据集是由图像标题生成器生成的重新标题数据集与地面真实的人工书写数据的混合,以确保模型捕捉用户输入。这种图像标题改进方法引入了一个潜在问题:实际用户提示与训练数据中详细图像描述之间的不匹配。DALL·E 3 通过上采样来解决这个问题,其中 LLMs 用于将短用户提示重写为详细而冗长的说明。这确保了推理时模型接收到的文本输入与训练中的输入一致。
为了增强跟随指令的能力,Sora 采用了一种类似的标题改进方法。该方法首先训练一个能够为视频生成详细描述的视频标题生成器。然后,将该视频标题生成器应用于训练数据中的所有视频,生成高质量的(视频,描述性标题)对,用于微调 Sora 以提高其跟随指令的能力。Sora 的技术报告 [3] 没有透露关于如何训练视频标题生成器的详细信息。鉴于视频标题生成器是一个视频到文本模型,有许多构建它的方法。一个直接的方法是利用 CoCa 架构进行视频标题生成,通过将视频的多帧输入到图像编码器中 [68],即 VideoCoCa [69]。VideoCoCa 在 CoCa 的基础上构建,重复使用图像编码器的预训练权重,并独立地应用于抽样视频帧。生成的帧 token 嵌入被展平并连接成一个长序列的视频表示。然后,这些展平的帧 token 经过生成池化器和对比池化器处理,它们与对比损失和标题损失一起进行联合训练。构建视频标题生成器的其他替代方法包括 mPLUG-2 [70]、GIT [71]、FrozenBiLM [72] 等。最后,为确保用户提示与训练数据中那些描述性标题的格式相一致,Sora 执行额外的提示扩展步骤,其中 GPT-4V 用于将用户输入扩展到详细的描述性提示。
对于 Sora 生成符合用户意图的复杂场景的一分钟长视频而言,跟随指令的能力是至关重要的。根据 Sora 的技术报告[3],通过开发一个能够生成长而详细描述的标题的标题生成器来获得这种能力,然后使用这些标题对模型进行训练。然而,为训练这样一个标题生成器收集数据的过程是未知的,可能是繁重的,因为它可能需要对视频进行详细描述。此外,描述性的视频标题生成器可能会产生视频的重要细节的幻觉。我们认为如何改进视频标题生成器值得进一步研究,并且对于提高文本到图像模型的跟随指令能力至关重要。
提示工程是指在 AI 系统中设计和精炼输入的过程,特别是在生成模型的背景下,以实现特定或优化的输出 [73, 74, 75]。提示工程的艺术和科学涉及以引导模型生成最准确、相关和连贯的响应的方式来制作这些输入。
文本提示工程对于引导文本到视频模型(如 Sora [3])生成视觉引人注目且精确符合用户规格的视频至关重要。这涉及到制作详细的描述,以指导模型有效地弥合人类创造力与 AI 执行能力之间的差距 [76]。Sora 的提示涵盖了各种场景。最近的研究作品(如 VoP [77]、Make-A-Video [28] 和Tune-A-Video [78])展示了提示工程如何利用模型的自然语言理解能力来解码复杂的指令,并将其转化为连贯、生动和高质量的视频叙述。正如图 15 所示,“一位时尚的女士漫步在霓虹灯闪烁的东京街道上…” 是一个精心制作的文本提示,它确保 Sora 生成与期望视觉良好匹配的视频。提示工程的质量取决于对词语的精心选择、提供细节的特定性以及对它们对模型输出的影响的理解。例如,图 15 中的提示详细指定了场景的动作、设置、角色外貌,甚至是所期望的情绪和氛围。
图像提示作为即将生成的视频内容的视觉锚点,以及角色、场景和情绪等其他元素的指引 [79]。此外,文本提示可以指导模型通过添加层次的动作、互动和叙述进展来使这些元素动画化,从而使静态图像栩栩如生 [27, 80, 81]。使用图像提示使得 Sora 能够通过利用视觉和文本信息,将静态图像转化为具有叙事性的动态视频。在图 16 中,我们展示了由“戴着贝雷帽和高领衫的柴犬”、“独特的怪物家庭”、“形成 ‘SORA’ 字样的云” 和 “冲浪者在历史悠久的大厅内穿越潮汐波浪” 等 DALL·E 生成的图像提示生成的 AI 视频的例子。
正如在 [82, 83] 中展示的,视频提示也可以用于视频生成。最近的作品(例如,Moonshot [84] 和 Fast-Vid2Vid [85])表明好的视频提示需要具体且灵活。这确保模型能够明确指导特定目标,如描绘特定对象和视觉主题,同时允许最终输出具有创造性的变化。例如,在视频扩展任务中,提示可以指定方向(时间向前或向后)以及扩展的上下文或主题。在图 17(a)中,视频提示指示 Sora 将视频向后延伸,以探索导致原始起点的事件。在执行视频到视频编辑的过程中,如图 17(b) 所示,模型需要清楚理解所需的转换,例如更改视频的风格、设置或氛围,或者修改诸如照明或情绪等微妙的方面。在图 17(c) 中,提示指示 Sora 在不同场景的视频之间确保平滑过渡。
提示工程允许用户引导 AI 模型生成符合其意图的内容。作为一个例子,文本、图像和视频提示的综合使用使得 Sora 能够创建既视觉上引人注目又与用户期望和意图紧密相关的内容。虽然先前的研究主要集中在 LLM 和 LVM 的文本和图像提示上 [86, 87, 88],但我们预计视频生成模型将对视频提示产生越来越多的兴趣。
随着像 ChatGPT [89]、GPT4-V [90] 和 Sora [3] 这样的复杂模型的迅猛发展,这些模型的能力得到了显著增强。这些发展对提高工作效率和推动技术进步做出了重要贡献。然而,这些进展也引发了人们对这些技术潜在滥用的担忧,包括虚假新闻的生成 [91, 92],隐私泄露 [93] 和伦理困境 [94, 95]。因此,大型模型的可信度问题引起了学术界和工业界的广泛关注,成为当今研究讨论的焦点。
关注的一个主要领域是模型的安全性,特别是其对滥用和所谓的 “越狱” 攻击的抵抗能力,即用户试图利用漏洞生成被禁止或有害的内容 [96, 97, 98, 99, 100, 101, 102, 103, 104, 105]。例如,AutoDAN [103] 是一种基于梯度技术的新型可解释对抗攻击方法,旨在使系统绕过防御。在最近的一项研究中,研究人员探讨了 LLM 为何难以抵御越狱攻击的两个原因:竞争性目标和不匹配的泛化[106]。除了文本攻击,视觉越狱也威胁到多模态模型的安全性(例如 GPT-4V [90] 和 Sora [3])。最近的一项研究发现,大型多模态模型更容易受到攻击,因为附加的视觉输入具有连续和高维度的特性,使其更容易受到对抗性攻击,代表了一个扩展的攻击面。
由于大型基础模型的训练数据集规模和训练方法(例如 ChatGPT [89] 和 Sora [3]),这些模型的真实性需要得到增强,因为相关问题如幻觉已被广泛讨论 [108]。在这里,幻觉指的是模型生成似乎令人信服但没有根据或是错误的响应 [96]。这种现象引发了关于模型输出的可靠性和可信度的重要问题,需要综合性方法来评估和解决这个问题。已经有大量研究致力于从不同角度剖析幻觉问题。这包括努力评估不同模型和场景下幻觉的程度和性质 [109, 96, 110, 111]。这些评估为了解幻觉为何发生以及如何发生提供了宝贵的见解,为制定减少其发生的策略奠定了基础。与此同时,大量研究致力于设计和实施减少这些大型模型中幻觉的方法 [112, 113, 114]。
可信度的另一个重要方面是公正性和偏见。开发不会强化或加剧社会偏见的模型至关重要。这一优先考虑源于对这些模型中编码的偏见可能强化现有社会不平等的认识,导致歧视性结果。在这一领域的研究,如 Gallegos 等人的工作 [115],Zhang 等人的工作 [116],Liang 等人的工作 [117] 和Friedrich 等人的工作 [118],致力于仔细识别和纠正这些固有偏见。目标是培养公正的模型,平等对待所有个体,不对种族、性别或其他敏感属性产生偏见。这不仅涉及在数据集中检测和缓解偏见,还包括设计算法以主动抵制这些偏见的传播。
隐私保护在这些模型部署时成为另一个基础支柱。在数据隐私担忧升级的时代,强调保护用户数据的重要性尤为关键。公众对个人数据处理方式的关注和担忧促使对大型模型进行更严格的评估。这些评估关注模型保护用户数据的能力,确保个人信息保持机密,不会被意外披露。Mireshghallah等人的研究 [121],Plant 等人的研究 [122] 和 Li 等人的研究 [123] 展示了推动隐私保护方法和技术的努力。
在应对这些挑战时,确保大型模型的可信度已经成为研究人员的主要关切之一 [124, 96, 99, 125]。其中最重要的技术之一是模型对齐 [125, 126],它指的是确保模型的行为和输出与人类设计者的意图和道德标准一致的过程和目标。这涉及到技术的发展、其道德责任和社会价值观。在 LLMs 领域,强化学习与人类反馈(RLHF)的方法 [127, 128] 已广泛应用于模型对齐。这种方法将强化学习(RL)与直接人类反馈结合起来,使模型更好地与人类在理解和执行任务方面的期望和标准一致。
从 Sora(特别是其技术报告)中,我们总结了一些具有洞见的发现,这些发现可能为未来的工作提供信息指导: (1)模型和外部安全性的综合保护:随着模型变得更加强大,特别是在生成内容方面,确保它们不被滥用以生成有害内容(例如仇恨言论 [129] 和虚假信息 [92, 91])已经成为一项严重挑战。除了调整模型本身,外部安全性保护同样重要。这包括内容过滤和审查机制、使用权限和访问控制、数据隐私保护,以及透明度和可解释性的增强。例如,OpenAI 现在使用一个检测分类器来判断 Sora 生成的视频 [130]。此外,还部署了一个文本分类器来检测潜在有害的文本输入 [130]。 (2)多模态模型的安全挑战:多模态模型,如文本到视频模型(例如 Sora)由于能够理解和生成各种类型的内容(文本、图像、视频等),因此对安全性带来了额外的复杂性。多模态模型可以以各种形式生成内容,增加了滥用和版权问题的方式和范围。由于多模态模型生成的内容更为复杂和多样,传统的内容验证和真实性方法可能不再有效。这需要开发新的技术和方法来识别和过滤这些模型生成的有害内容,增加了监管和管理的难度。 (3)跨学科合作的需求:确保模型的安全性不仅是技术问题,还需要跨学科的合作。为了解决这些问题,来自不同领域的专家,如法律 [131] 和心理学 [132],需要共同努力制定适当的规范(例如,什么是安全的,什么是不安全的?)、政策和技术解决方案。跨学科合作的需求显著增加了解决这些问题的复杂性。
随着 Sora 等视频扩散模型的崭露头角,它们在各个研究领域和行业的应用迅速加速。这项技术的影响远不止于简单的视频创作,还为从自动化内容生成到复杂决策过程等任务提供了变革性的潜力。在本节中,我们深入探讨了视频扩散模型当前的应用,重点介绍了 Sora 不仅展示其能力而且彻底改变解决复杂问题的方法的关键领域。我们旨在为实际部署场景提供广泛的视角(见图 18)。
传统上,创作电影杰作是一项艰巨而昂贵的过程,通常需要数十年的努力、尖端设备和大量的财政投资。然而,先进的视频生成技术的出现预示着电影制作进入了一个新时代,一个可以从简单的文本输入中自动产生电影的时代。研究人员通过将视频生成模型扩展到电影创作领域,着手进入电影生成的领域。MovieFactory [133] 应用扩散模型生成电影风格的视频,这些视频的脚本由 ChatGPT [89]生成,代表了一个重要的进步。随后推出的 MobileVidFactory [134] 可以根据用户提供的简单文本自动生成垂直移动视频。Vlogger [135] 使用户能够创作一分钟长的视频日志。这些发展,尤其是 Sora 轻松生成引人入胜的电影内容的能力,标志着电影制作的民主化的关键时刻。它们展示了一个未来的雏形,任何人都可以成为电影制片人,大大降低了进入电影行业的门槛,并为电影制作引入了一个将传统叙事与人工智能驱动创造力相融合的新维度。这些技术的影响不仅仅是简化,它们承诺重新塑造电影制作的格局,在面对不断变化的观众喜好和分发渠道时,使其更具可访问性和多样性。
长期以来,教育内容的领域一直被静态资源所主导,尽管这些资源有其价值,但往往无法满足当今学生多样化的需求和学习风格。视频扩散模型站在教育革命的前沿,提供了前所未有的机会,以以显著提高学习者参与和理解的方式定制和激发教育材料。这些先进的技术使教育工作者能够将文本描述或课程大纲转化为特定学习者风格和兴趣的动态、引人入胜的视频内容 [136, 137, 138, 139]。此外,图像到视频的编辑技术 [140, 141, 142] 为将静态教育资产转化为互动视频开辟了创新途径,从而支持一系列学习偏好,可能提高学生参与度。通过将这些模型整合到教育内容创作中,教育工作者可以创作涉及各种主题的视频,使复杂的概念对学生更易理解和引人入胜。Sora 在革新教育领域中的作用是这些技术变革潜力的典范。这种转向个性化、动态的教育内容标志着教育的新时代。
游戏行业不断寻求推动现实感和沉浸感的方法,然而传统的游戏开发经常受到预渲染环境和脚本事件的限制。扩散模型通过实时生成动态、高保真度的视频内容和逼真的声音,承诺克服现有的限制,为开发人员提供工具,创造对玩家行动和游戏事件有机响应的不断演变的游戏环境 [143, 144]。这可能包括生成变化的天气条件、转变的风景,甚至是即时创建全新的场景,使游戏世界更具沉浸感和响应性。一些方法 [145, 146] 还从视频输入中合成逼真的冲击声音,增强游戏音频体验。通过将 Sora 整合到游戏领域,可以创造出引人入胜并吸引玩家的前所未有的沉浸式体验。游戏的开发、玩法和体验将得到创新,同时为叙述、互动和沉浸感开辟新的可能性。
尽管具有生成能力,视频扩散模型擅长理解和生成复杂的视频序列,使它们特别适用于检测人体内的动态异常,如早期细胞凋亡 [147]、皮肤病变进展 [148] 和不规则的人体运动 [149],这对早期疾病检测和干预策略至关重要。此外,像 MedSegDiff-V2 [150] 和 [151] 这样的模型利用 transformer 的能力,以前所未有的精度分割医学图像,使临床医生能够以更高的准确性找到感兴趣的区域。将Sora 整合到临床实践中不仅有望优化诊断过程,还可以个性化患者护理,根据精确的医学成像分析提供定制的治疗方案。然而,这种技术整合也面临着自己的一系列挑战,包括需要强大的数据隐私措施和在医疗保健领域处理伦理问题。
视频扩散模型现在在机器人技术中发挥着重要作用,展示了一个机器人可以为增强感知 [152, 153]和决策制定 [154, 155, 156] 生成和解释复杂视频序列的新时代。这些模型为机器人解锁了新的能力,使它们能够与环境互动并以前所未有的复杂性和精度执行任务。引入大规模扩散模型到机器人技术 [152] 展示了利用大型模型增强机器人视觉和理解的潜力。潜在扩散模型被用于语言指导的视频预测 [157],使机器人能够通过在视频格式中预测动作结果来理解和执行任务。此外,视频扩散模型创新性地解决了机器人研究中对模拟环境的依赖,能够创建高度逼真的视频序列 [158, 159]。这使得机器人能够生成多样化的训练场景,缓解了真实世界数据稀缺性带来的限制。我们相信,像Sora这样的技术整合到机器人领域,将迎来划时代的发展。通过利用 Sora 的力量,机器人的未来将迎来前所未有的进步,使机器人能够无缝地在其环境中导航和互动。
Sora 展现了对来自人类的复杂指令进行精确理解和实施的卓越才能。该模型擅长创建包含各种角色的详细视频,这些角色设置在精心设计的环境中。Sora 的一个特别令人印象深刻的特性是其能够在确保连贯而引人入胜的叙述的同时,生成长达一分钟的视频。这标志着对先前仅专注于较短视频片段的尝试的显着改进,因为 Sora 的扩展序列展现出清晰的叙事流程,并从头到尾保持视觉一致性。此外,Sora 通过生成更长的视频序列,捕捉复杂的运动和互动,使其超越了先前模型仅能处理短片和基本图像的限制。这种进步标志着人工智能驱动创意工具迈向前所未有的一步,使用户能够以以前难以实现的详细和复杂程度将书面故事转化为生动的视频。
物理真实性的挑战。作为一个模拟平台,Sora 表现出一系列限制,削弱了其在准确描绘复杂场景方面的效果。最重要的是在处理复杂场景中的物理原理时,它的处理不一致,导致在准确复制特定因果关系示例时失败。例如,吃掉一块饼干的一部分可能不会导致相应的咬痕,表现出系统偶尔违背物理合理性。这个问题延伸到运动的模拟,其中 Sora 生成的运动挑战着现实的物理建模,比如物体的不自然变形或椅子等刚性结构的错误模拟,导致不真实的物理交互。在模拟对象和角色之间复杂的交互时,有时会产生倾向于幽默的结果。
空间和时间复杂性。Sora 有时会误解与给定提示中的对象和角色的放置或排列相关的指令,导致对方向的混淆(例如,将左混淆为右)。此外,在事件的时间准确性方面,它在遵循指定的摄像机移动或序列方面面临挑战。这可能导致偏离场景的预期时间流的问题。在涉及大量角色或元素的复杂场景中,Sora 有时会插入无关的动物或人物。这样的添加可以显著改变最初设想的构图和氛围,偏离了计划的叙述或视觉布局。这个问题不仅影响了模型准确再现特定场景或叙述的能力,还影响了它生成的内容是否与用户期望和生成输出的一致性。
人机交互的限制。虽然 Sora 在视频生成领域显示出潜力,但在人机交互方面面临着重大限制。这些限制主要体现在用户系统交互的一致性和效率方面,尤其是在对生成的内容进行详细修改或优化时。例如,用户可能会发现难以精确指定或调整视频中特定元素的呈现,如动作细节和场景过渡。此外,在理解复杂语言指令或捕捉微妙语义差异方面,Sora 存在局限性,可能导致视频内容并未完全满足用户期望或需求。这些缺点限制了 Sora 在视频编辑和增强方面的潜力,同时也影响了用户体验的整体满意度。
使用限制。关于使用限制,OpenAI 尚未为 Sora 设定具体的公开访问日期,强调在广泛部署之前需要谨慎的安全性和准备性。这表明 Sora 可能仍然需要在安全性、隐私保护和内容审查等方面进行进一步的改进和测试。此外,目前 Sora 只能生成长达一分钟的视频,根据已发布的案例,大多数生成的视频只有几十秒长。这个限制限制了其在需要更长内容展示的应用中的使用,例如详细的教学视频或深入的叙述。这种限制降低了 Sora 在内容创建方面的灵活性。
学术界。 (1) OpenAI 推出 Sora 标志着一个战略性转变,鼓励更广泛的人工智能社区深入探讨文本到视频模型的可能性,利用扩散和 transformer 技术。这一举措旨在将关注点重新引向直接从文本描述中创建高度复杂和细致的视频内容的潜力,这一领域有望彻底改变内容创作、叙事和信息共享。 (2) Sora 在原始大小的数据上进行训练的创新方法,与传统的调整或裁剪方法相比,为学术界提供了一个突破性的灵感。它通过突出使用未经修改的数据集的好处,为创建更先进的生成模型开辟了新的途径。
产业界。 (1) Sora 目前的能力预示着视频模拟技术的进步,突显了在物理和数字领域显著提高现实感的潜力。通过文字描述,Sora 有望实现创建高度逼真的环境,为内容创作带来一个充满希望的未来。这个潜力延伸到了革新游戏开发,展示了未来可能可以以前所未有的轻松和准确度打造引人入胜的生成世界。 (2) 公司可以利用 Sora 制作迅速适应市场变化并创建定制营销内容的广告视频。这不仅减少了制作成本,还提高了广告的吸引力和有效性。Sora 能够仅通过文本描述就生成高度逼真的视频内容,这可能彻底改变品牌与其受众互动的方式,允许以前所未有的方式创造引人入胜的视频,捕捉其产品或服务本质。
社会。 (1) 尽管利用文本到视频技术取代传统电影制作的前景仍然遥远,但 Sora 和类似的平台对社交媒体上的内容创作具有变革性的潜力。当前视频长度的限制并不减弱这些工具在使高质量视频制作对每个人都可访问方面的影响,使个人能够在不需要昂贵设备的情况下制作引人入胜的内容。这代表着在平台如 TikTok 和 Reels 上赋能内容创作者的重大转变,带来了创造力和参与度的新时代。 (2) 编剧和创意专业人士可以利用 Sora 将书面剧本转化为视频,帮助他们更好地展示和分享他们的创意概念,甚至制作短片和动画。从脚本中创建详细、生动的视频的能力,从根本上改变了电影和动画制作的前期过程,提供了一个窥视未来故事创作者可能如何推动、开发和完善其叙述的方式。这项技术为更具动态和互动性的脚本开发开辟了可能性,其中创意可以实时可视化和评估,为创造力和协作提供了强大的工具。 (3) 记者和新闻机构也可以利用 Sora 快速生成新闻报道或解释性视频,使新闻内容更加生动和引人入胜。这可以显著提高新闻报道的报道范围和受众参与度。通过提供一个能够模拟现实环境和场景的工具,Sora 为视觉叙事提供了一个强大的解决方案,使记者能够通过引人入胜的视频传达以前难以或昂贵制作的复杂故事。总体而言,Sora 在营销、新闻和娱乐等领域改变内容创作的潜力是巨大的。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。