凡人多烦事01

这个屌丝很懒，什么也没留下！

热门标签

今日arXiv最热NLP大模型论文：逆向解析Sora背后的秘密，谈AI视频的机遇与挑战

作者：凡人多烦事01 | 2024-03-18 19:59:52

踩

引言：Sora——AI在视频生成领域的新篇章

随着AI技术的飞速发展，人工智能已在视频生成领域翻开新的篇章。自2022年11月ChatGPT问世以来，AI技术已在我们的日常生活和工业应用中发挥着举足轻重的作用。继此之后，OpenAI在2024年2月推出了Sora——这款革命性的文本到视频生成模型，能够依据用户提供的文本提示，生成栩栩如生、充满想象力的视频画面。与以往的视频生成模型相比，Sora的独特之处在于它能够生成长达一分钟的高质量视频，并且严格遵循用户的文本指令。

相较于传统的视频生成模型，Sora的亮点在于其能够创作出长达一分钟的高品质视频，并且严格遵循用户的文本指令。不仅如此，Sora还能理解场景中各个元素之间复杂的相互作用，从而生成具有时间进程感和视觉连贯性的长视频。这一突破性的能力，是之前只能生成短视频片段的模型所无法比拟的。

此外，Sora对动作和互动的精细刻画，也打破了以往模型在简单视觉渲染方面的局限。这些显著的进步不仅彰显了Sora作为世界模拟器的巨大潜力，还让我们能够深刻洞察所描绘场景的物理特性和上下文动态。

论文标题：
Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models

论文链接：
https://arxiv.org/pdf/2402.17177.pdf

GPT-3.5研究测试：

https://hujiaoai.cn

GPT-4研究测试（遇到报警点击继续即可）：

https://higpt4.cn

Sora模型概述：技术背景与创新点

1. Sora的发展历程与技术演进

在过去十年中，生成式计算机视觉（CV）模型经历了重大发展（下图），特别是在深度学习技术如GANs[1]和VAEs[2]的推动下。这些模型在图像生成方面取得了显著进步，同时多模态模型如CLIP[3]和Stable Diffusion[4]在理解和生成图像方面展现了强大的能力。尽管视频生成面临挑战，但Sora模型的出现标志着在生成长达一分钟视频方面取得了突破。

Sora模型与之前的视频生成模型相比，其独特之处在于能够生成长达1分钟的高质量视频，并严格遵循用户的文本指令。如下图，OpenAI Sora模型根据提供的文本指令，分别生成三个视频。

Sora的发展体现了AI研究长期以来的使命，即赋予AI系统理解和与运动中的物理世界互动的能力。这涉及到开发能够不仅解释复杂用户指令，还能将这种理解应用于通过动态和富有上下文的模拟来解决现实世界问题的AI模型。

2. 从文本到视频：Sora的核心技术揭秘

Sora的核心技术基于扩散变换器（diffusion transformer）[5]，这是一种预训练的Transformer模型，已在许多自然语言任务中证明了其可扩展性和有效性。Sora采用了类似于强大的大语言模型（如GPT-4[6]）的技术，能够解析文本并理解复杂的用户指令。为了使视频生成在计算上高效，Sora使用了时空潜在补丁作为其构建块。具体来说（下图），Sora将原始输入视频压缩成潜在的时空表示，然后从压缩视频中提取一系列潜在的时空补丁，以封装短时间间隔内的视觉外观和运动动态。这些补丁类似于语言模型中的单词标记，为Sora提供了用于构建视频的详细视觉短语。

数据预处理与模型训练：Sora如何理解与处理视频数据

1. 视频数据的多样性处理

Sora能够处理、理解和生成各种原生大小的视频和图像（下图）。与传统方法不同，Sora不会调整视频的大小、裁剪或更改宽高比，而是保留了视频的原始尺寸。

运用原生视频和图像训练能显著提高生成视频的构图和框架质量（下图）。通过保持原始宽高比，Sora实现了更自然和连贯的视觉叙事，与经过统一裁剪的方形视频相比，Sora生成的视频展示了更好的构图，确保了场景中的主体完整捕捉，而不是有时因方形裁剪而导致的视图被截断。

2. 统一视觉表示的构建

为了有效地处理包括不同持续时间、分辨率和宽高比在内的多样化视觉输入，Sora采用了将所有形式的视觉数据转换为统一表示的方法。如下图，Sora通过首先将视频压缩到低维潜在空间，然后将表示分解为时空补丁来实现这一点。然而，Sora的技术报告[7]仅提供了一个高层次的想法，使得研究社区难以复制。

3. 视频压缩网络的作用与挑战

Sora的视频压缩网络（或视觉编码器）旨在减少输入数据的维度，尤其是将原始视频输出为压缩的时空潜在表示（下图）。

根据技术报告中的引用，压缩网络建立在VAE或向量量化-VAE（VQ-VAE）[8]之上。但是，如果不使用调整大小和裁剪，VAE很难将任何大小的视觉数据映射到统一和固定大小的潜在空间。我们总结了两种不同的实现方式来解决这个问题：空间补丁压缩和时空补丁压缩（下图）。这两种技术都是基于VAE或其变体，因为对补丁的操作更加灵活，更适合处理不同类型的视频。

由于Sora旨在生成高保真视频，因此使用了较大的补丁大小或内核大小来进行有效压缩。在这里，我们预计使用固定大小的补丁，因为它简单、可扩展并且训练稳定（下图）。但是，也可以使用不同大小的补丁来使潜在空间中的整个帧或视频的维度保持一致。然而，这可能导致位置编码无效，并给解码器生成不同大小潜在补丁的视频带来挑战。

模型架构与生成流程：Sora如何生成高质量视频

1. 融合Transformer与Diffusion的模型架构

Sora采用了一种结合了Transformer和Diffusion模型的架构。这种架构首先将原始视频压缩成低维的时空表示，然后提取出一系列时空潜在的补丁（patches），这些补丁类似于语言模型中的单词token，为Sora提供了详细的视觉短语来构建视频。如图，Sora的文本到视频生成是通过一个扩散变换器模型完成的，该模型从充满视觉噪声的帧开始，迭代地去除噪声并根据提供的文本提示引入特定细节。生成的视频通过多步精炼过程逐渐显现，每一步都使视频更加符合期望的内容和质量。

2. 语言指令跟随与Prompt工程的重要性

Sora能够准确解释和执行复杂的人类指令，这得益于其对用户生成的文本提示的处理能力，以及对场景内元素复杂相互作用的洞察。Sora的进步体现在其能够生成长达一分钟的视频序列，这些视频不仅在视觉质量上保持高水准，而且在视觉连贯性上也非常引人注目。

Sora的成功也归功于Prompt工程，即精心设计输入提示以指导模型生成符合用户意图的输出。这包括文本提示、图像提示和视频提示（依次与下面三图的案例对应），这些提示确保了生成内容的准确性和相关性。

应用场景探讨：Sora在不同行业的潜在影响

Sora等视频扩散模型作为前沿技术，正在加速应用于多个研究领域和行业（下图），其影响不仅限于视频创作，还为自动内容生成和复杂决策等任务带来变革。

1. 电影制作：简化流程与提升创意

Sora的视频生成能力为电影制作行业带来了革命性的变化。它简化了传统的电影制作流程，降低了制作成本，并为创作者提供了一个快速将文本故事转化为视觉内容的工具。这使得电影制作更加民主化，任何人都可以成为电影制作者，无需昂贵的设备和专业技能。

2. 教育领域：动态化学习材料的制作

在教育领域，Sora能够将课程大纲或文本描述转换为动态视频内容，使得学习材料更加生动有趣。这种动态化的学习材料可以提高学生的参与度和理解力，尤其是在复杂概念的教学中。

3. 游戏开发：实时环境生成与交互体验

Sora为游戏开发带来了新的可能性，它可以实时生成动态的游戏环境和角色互动，提升了游戏的沉浸感和真实感。开发者可以利用Sora创造出反应玩家行为和游戏事件的有机变化的游戏世界。

4. 医疗健康：精准医学影像分析与诊断

在医疗健康领域，Sora的视频理解和生成能力使其在动态异常检测、疾病早期发现和干预策略中发挥着重要作用。Sora可以帮助医生更精确地分析医学影像，为患者提供个性化的治疗方案。

5. 机器人技术：提升感知与决策能力

Sora在机器人技术中的应用，为机器人提供了理解和解释复杂视频序列的能力，这增强了机器人的感知和决策能力。机器人可以利用Sora生成的视频预测行动结果，从而更好地与环境互动并执行任务。

挑战与机遇：Sora面临的问题与未来发展方向

1. 物理真实性与时空复杂性的挑战

Sora作为一种文本到视频的生成模型，尽管在模拟物理世界方面展现出了潜力，但在处理复杂场景中的物理原则时仍存在局限性。例如，它在模拟特定的因果关系时可能会出现不一致性，如吃掉饼干的部分可能不会在视频中留下相应的痕迹。此外，Sora在模拟运动时也可能产生违反物理规律的情况，如物体的不自然变形或对刚体结构的错误模拟。这些问题在模拟对象和角色之间的复杂互动时尤为突出，有时会产生偏离现实的结果。

2. 人机交互的限制与优化空间

Sora在人机交互方面也面临着挑战，特别是在用户进行详细修改或优化生成内容时，交互的连贯性和效率可能不尽如人意。用户可能难以精确指定或调整视频中特定元素的呈现，如动作细节和场景过渡。此外，Sora在理解复杂的语言指令或捕捉微妙的语义差异方面可能存在限制，这可能导致生成的视频内容无法完全满足用户的期望或需求。

3. 使用限制与社会影响的考量

目前，Sora尚未对公众开放使用，OpenAI采取谨慎的态度，强调在广泛部署之前确保安全性和准备就绪。这表明Sora可能还需要在安全性、隐私保护和内容审查等方面进行进一步的改进和测试。此外，Sora目前只能生成长达一分钟的视频，这限制了它在需要更长内容展示的应用场景中的使用，如详细的教学视频或深入的故事叙述。

结论与展望：Sora技术的意义与社会价值

Sora作为OpenAI推出的文本到视频生成模型，不仅在视频生成领域展现出了巨大的潜力，而且在教育、游戏、医疗和机器人等多个行业中都有着广泛的应用前景。Sora的出现预示着内容创作方式的变革，使得从简单的文本输入到自动生成电影内容成为可能。它为电影制作、教育内容创作、游戏开发和临床实践等领域提供了新的工具和方法，有望极大地提高工作效率、促进技术进步，并为社会带来更多的创新和包容性。

尽管Sora在物理真实性、时空复杂性、人机交互和使用限制方面面临挑战，但它在学术界、工业界和社会上的潜在影响是巨大的。随着技术的不断进步和优化，Sora有望在未来成为一个强大的工具，不仅能够提高内容创作的质量和效率，还能够推动多个领域的创新和发展。

参考资料

[1] I. J. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio, “Generative adversarial networks,” arXiv, 2014.
[2]D. P. Kingma and M. Welling, “Auto-encoding variational bayes,” arXiv preprint arXiv:1312.6114, 2013.
[3]A. Radford, J.W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark, G. Krueger, and I. Sutskever, “Learning transferable visual models from natural language supervision,” 2021
[4]R. Rombach, A. Blattmann, D. Lorenz, P. Esser, and B. Ommer, “High-resolution image synthesis with latent diffusion models,” in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 10684–10695, 2022.
[5]W. Peebles and S. Xie, “Scalable diffusion models with transformers,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 4195–4205, 2023.
[6]OpenAI, “Gpt-4 technical report,” 2023.6
[7]OpenAI, “Sora: Creating video from text.” https://openai.com/sora, 2024.
[8]A. Van Den Oord, O. Vinyals, et al., “Neural discrete representation learning,” Advances in neural information processing systems, vol. 30, 2017.

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/凡人多烦事01/article/detail/265443