赞
踩
OpenAI 推出了一款名为 Sora 的创新视频生成模型,这款模型能够将简短的文本描述转化为最长达一分钟的精细、高清视频片段。
https://openai.com/sora
Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
根据 OpenAI 向《麻省理工科技评论》展示的四个样本视频,这家位于旧金山的公司在文本到视频生成技术 —— 一项我们认为在 2024 年将成为研究热点的领域 —— 上取得了突破性进展。
OpenAI 科学家 Tim Brooks 表示:“构建能够理解视频内容并把握我们世界中各种复杂互动的模型,对于所有未来 AI 系统的发展至关重要。”
但是,需要注意的是,OpenAI 对 Sora 的介绍是在严格保密的前提下进行的。公司采取了不同寻常的策略,只有在我们同意在模型信息公开后再征询外部专家意见的条件下,才向我们透露了关于 Sora 的信息。【编辑注:我们已根据外部反馈更新了这一部分内容。】目前,OpenAI 还没有发布关于该模型的技术报告,也没有公开展示模型的实际运行情况,并表示短期内不计划公开发布 Sora。
视频都发不了...
这个视频精心描绘了这样一个场景:一个毛茸茸、身材矮小的怪物跪坐在一支正逐渐融化的红蜡烛旁。整个作品采用了三维逼真的艺术风格,特别注重光影和纹理效果的渲染。画面洋溢着一种探索的惊喜和好奇心,我们可以看到这个小怪物睁大了双眼,嘴巴微张,全神贯注地观察着跳动的火焰。它的姿势和表情洋溢着一种纯真与顽皮,仿佛它是第一次对周遭的世界进行探索。温暖的色调和戏剧化的光线处理,进一步营造了一种温馨舒适的画面氛围。
这个视频展现在眼前的是一个令人叹为观止的纸质工艺珊瑚礁世界,这里栖息着各种色彩斑斓的鱼类和海洋生物。每一处细节都通过精细的纸艺手法巧妙呈现,从而营造出一个既梦幻又生动的海底景象。
自 2022 年底首批能根据文本片段生成视频的模型问世以来,Meta、Google 以及一家名为 Runway 的初创企业最初推出的产品虽具开创性,但存在一些故障和画质不清的问题。随着技术的快速进步,Runway 在去年发布的第二代模型已能制作出与大型动画工作室相媲美的短视频,尽管这些视频大多仅有几秒钟。
OpenAI 的 Sora 提供的样品视频不仅画质高清,而且细节丰富。OpenAI 还宣布,其能够生成长达一分钟的视频。例如,一个展示东京街道场景的视频生动展现了 Sora 如何精准地在三维空间中构建物体关系:摄影机深入场景,紧随一对情侣穿行于商店前。
OpenAI 还表示,Sora 在处理物体遮挡时表现出色。传统模型常见的问题之一是,物体一旦从画面中消失,便难以再次准确跟踪。举个例子,如果一辆卡车遮挡了街道标志,该标志可能就不会再出现了。
在一段展示纸质水下世界的视频中,Sora 不仅加入了似乎是不同视频片段间的转换,还在这些片段之间保持了风格的一致性。
尽管如此,Sora 并非完美无缺。例如,在东京街道的视频中,一些汽车与行人相比显得过小,并且在树枝间出现消失,缺乏一致性。“在保持长期一致性方面,我们确实还有不少工作要做。”Brooks 表示,“比如,如果某个对象长时间消失在画面之外,它们可能就不会再回来,模型似乎会‘遗忘’它们原本应存在的位置。”
尽管这里展示的示例视频让人吃惊,但它们无疑是经过精心挑选的,旨在展示 Sora 在最佳状态下的表现。但由于缺乏更多信息,我们很难判断这些示例在多大程度上代表了该模型的典型输出效果。
要了解真相可能还需要一段时间。今天,OpenAI 对 Sora 进行了一次技术展示,但公司表示目前没有向公众发布此技术的计划。相反,OpenAI 会从今天开始,首次与第三方安全测试人员共享这一模型。
OpenAI 特别担心,高度逼真的虚假视频可能会被误用。OpenAI 科学家 Aditya Ramesh 表示:“我们在部署这一技术时非常谨慎,确保在向公众提供之前,所有预防措施都已就绪。”Aditya Ramesh 是该公司将文字转换成图片的模型 DALL-E 的创造者。
但是,OpenAI 正在考虑在未来某个时间推出这款产品。除了与安全测试人员分享模型外,公司还计划与一小部分视频制作者和艺术家合作,收集他们的反馈,以便让 Sora 更好地服务于创意行业专业人士。“我们的另一个目标是向大家展示未来的可能性,让大家预览这些模型未来能够实现的功能。”Ramesh 如是说。
在开发 Sora 的过程中,团队利用了最新版的 OpenAI 旗舰文本到图片模型 DALL-E 3 背后的技术。与大多数此类模型一样,DALL-E 3 基于一种被称为 “扩散模型” 的技术,该技术能够将一堆随机分布的像素点转化为清晰的图片。
Sora 这一技术突破,不是用在静态图片上,而是应用于视频。研究团队还引入了一种新技术。与 DALL-E 或大部分其他视频生成模型不同,Sora 把它的扩散模型与一种叫做 Transformer 的神经网络结合了起来。
Transformer 非常擅长处理像单词这样的长序列数据。这一特性使它们成为了像 OpenAI 的 GPT-4 和 Google DeepMind 的 Gemini 等 LLM 的关键组成部分。然而,视频并非由单词构成。因此,研究人员必须寻找一种方式,将视频分割成可以当作 “单词” 处理的片段。他们采用的方法是同时在空间和时间上切割视频。“就好比你有一叠视频帧,然后你从中切割出小方块,”Brooks 解释道。
Sora 内置的 Transformer 可以处理这些视频数据块,其方式与 LLM 中的 Transformer 处理文本中的单词极为相似。研究人员表示,这使他们能够在多种不同类型的视频上训练 Sora,包括不同的分辨率、时长、宽高比和方向。“这对模型帮助很大,”Brooks 说。“这是一项我们所不了解的现有研究成果。”
几只雄伟的长毛象缓步穿越覆盖着雪的草地,它们浓密的长毛在微风中轻轻摇曳。远处,雪覆盖的树木和壮丽的雪顶山峰勾勒出一幅壮观的背景。午后的阳光穿透飘渺的云层,远方高悬的太阳洒下温暖的光辉,营造出一种温馨的氛围。低角度的镜头令人惊叹,精妙地捕捉了这种大型的毛茸茸哺乳动物的雄姿,通过美轮美奂的摄影技术和景深效果展现出来。
东京,这座被雪覆盖的城市,美丽而繁华。镜头穿梭在繁忙的街道上,紧随着几位正在享受这场美妙雪景并在街边摊位上选购商品的行人。在雪花飘扬的同时,绚丽的樱花瓣也随风起舞,美得如同画卷一般。 whaosoft aiot http://143ai.com
“从技术层面上讲,这显然是一个巨大的进步,” 人权组织 Witness 的执行董事 Sam Gregory 表示,这个组织专注于视频技术的使用及其滥用问题。“但问题有两面性,” 他补充道。“这种技术的表达能力的提高,意味着更多人可以通过视频来讲述故事。但同时,它也开启了滥用的大门。”
OpenAI 对生成视频模型带来的风险有着清醒的认识。我们已经目睹了深度伪造(deepfake)图像的大规模滥用。逼真的视频技术将这种风险推向了新的高度。
Gregory 指出,这种技术可能被用于误导人们关于冲突区域或抗议活动的信息。“它的风格多样性也很有吸引力,” 他说。如果能生成看似用手机摄制的不稳定视频,其真实性会更高。
尽管这项技术还未完全成熟,但生成视频在仅仅 18 个月内就从零发展至 Sora。“我们即将步入一个新的时代,届时将会出现完全合成的内容、人工制作的内容以及两者的混合体,”Gregory 表示。
OpenAI 团队打算借鉴去年对 DALL-E 3 进行的安全测试经验。Sora 已经内置了一个过滤器,它将拦截所有针对暴力、色情或仇恨内容以及知名人物图像的请求。另一个过滤器将审查生成的视频帧,阻止违反 OpenAI 安全准则的内容。
OpenAI 还表示,他们正在把为 DALL-E 3 开发的假图像检测技术适配到 Sora 使用。此外,公司将在 Sora 生成的所有输出中加入业界标准的 C2PA 标签,这是一种声明图像生成方式的元数据。但这些预防措施并非绝对可靠。假图像检测技术存在不确定性,元数据容易被删除,而且大多数社交媒体默认会删除上传图片的元数据。
“我们肯定需要收集更多反馈,进一步了解在考虑发布这项技术前需要解决的视频相关风险,”Ramesh 说。
Brooks 也表示赞同。“我们之所以现在讨论这项研究,是因为我们希望开始收集必要的反馈,进行必要的工作,以确定如何能够安全地部署这项技术,” 他说。
技术细节
对 Sora 背后的模型细节,我们知之甚少。据 OpenAI 博客,更多的信息将在后续的技术论文中公布。
博客中透露了一些基础信息:Sora 是一种扩散模型,它生成的视频一开始看起来像静态噪音,然后通过多个步骤去除噪音,逐步转换视频。
Midjourney 和 Stable Diffusion 的图像和视频生成器同样基于扩散模型。但我们可以看出,OpenAI Sora 生成视频的质量好得多。Sora 感觉像是创建了真实的视频,而以往这些竞争对手的模型则感觉像是 AI 生成图像的定格动画。
Sora 可以一次性生成整个视频,也可以扩展生成的视频,使其更长。通过让模型一次预见多帧画面,OpenAI 解决了一个具有挑战性的问题,即确保被摄体即使暂时离开视线也能保持不变。
与 GPT 模型类似,Sora 也使用了 transformer 架构,从而实现了卓越的扩展性能。
OpenAI 将视频和图像表示为称为 patch 的较小数据单元的集合,每个 patch 类似于 GPT 中的 token。通过统一数据表示方式,OpenAI 能够在比以往更广泛的视觉数据上训练扩散 transformer,包括不同的持续时间、分辨率和宽高比。
Sora 建立在过去 DALL・E 和 GPT 模型的研究基础之上。它采用了 DALL・E 3 中的重述技术,即为视觉训练数据生成高度描述性的字幕。因此,该模型能够在生成的视频中更忠实地遵循用户的文字提示。
除了能够仅根据文字说明生成视频外,该模型还能根据现有的静态图像生成视频,并准确、细致地对图像内容进行动画处理。该模型还能提取现有视频,并对其进行扩展或填充缺失的帧。
多项技术破纪录
借助于对语言的深刻理解,Sora能够准确地理解用户指令中所表达的需求,把握这些元素在现实世界中的表现形式。
也因此,Sora创造出的角色,能够表达丰富的情感!
它所制作出的复杂场景,不仅可以包括多个角色,还有特定的动作类型,以及对对象和背景的精确细节描绘。
此外,Sora还能在同一视频中设计出多个镜头,同时保持角色和视觉风格的一致性。
要知道,以前的AI视频,都单镜头生成的。
而这次OpenAI能在多角度的镜头切换中,就能实现对象的一致性,这不得不说是个奇迹!
这种级别的多镜头一致性,是Gen 2和Pika都完全无法企及的……
举个例子:「雪后的东京熙熙攘攘。镜头穿过繁忙的街道,跟随着几位享受着美丽雪景和在附近摊位购物的人们。美丽的樱花瓣伴随着雪花在风中飘舞。」
Sora根据这个提示所呈现的,便是东京在冬日里梦幻的一幕。
可以说,Sora的效果已经领先到了恐怖的级别,完全跳出了用冷兵器短兵相接的时代,其他AI视频被彻底干趴。
世界模型成真了??
最最最可怕的一点来了,Sora身上,竟已经有了世界模型的雏形?
通过观察大量数据,它竟然学会了许多关于世界的物理规律。
下面这个片段太令人印象深刻了:prompt中描绘了「一个短毛绒怪物跪在一支红蜡烛旁的动画场景」,同时描述了怪物的动作和视频的氛围。
随后,Sora就创造了一个类似皮克斯作品的生物,它似乎融合了Furby、Gremlin和《怪兽公司》中Sully的DNA。
让人震惊的是,Sora对于毛发纹理物理特性的理解,准确得令人惊掉下巴!
想当初,在《怪兽公司》上映时,皮克斯为了创造出怪物在移动时超级复杂的毛发纹理,可是费了好大一番功夫,技术团队直接连肝几个月。
而这一点,Sora轻而易举地就实现了,而且从没有人教过它!
「它学会了关于 3D 几何形状和一致性的知识,」项目的研究科学家Tim Brooks表示。
「这并非我们预先设定的——它完全是通过观察大量数据自然而然地学会的。」
得益于DALL·E 3所使用的扩散模型,以及GPT-4的Transformer引擎,Sora不仅能够生成满足特定要求的视频,而且能够展示出对电影拍摄语法的自发理解。
这种能力体现在它对讲故事的独特才能上。
例如,在一个以「色彩缤纷的鱼类和海洋生物充斥的,由纸艺精心构建的珊瑚礁世界」为主题的视频中,项目研究员Bill Peebles指出,Sora通过其摄影角度和拍摄时机,成功地推进了故事的发展。
不过,当前的模型并不完美。它在模拟复杂场景的物理效果上可能会遇到难题,有时也难以准确理解特定情境下的因果关系。比如,某人吃掉饼干的一部分后,饼干可能看起来仍然完整无损。
但是无可否认的是,可怕的事实已经就在面前:一个已经能够理解和模拟现实世界的模型,也就意味着AGI已经不远了。
「唯一真正的视频生成工作」
业内大佬张启煊评价道,「Sora是我目前看到唯一跳脱出空镜头生成、真正的视频生成工作。」
在他看来,目前看来Sora跟Pika、Runway是有代差的,视频生成领域终于被OpenAI支配。或许某天3D视频领域,有朝一日也能体会到这种恐惧。
网友们都被震惊到失语:「下一个十年会是疯狂的十年。」
技术介绍
Sora是一种扩散模型,它能够通过从一开始看似静态噪声的视频出发,经过多步骤的噪声去除过程,逐渐生成视频。
Sora不仅能够一次性生成完整的视频,还能延长已生成的视频。
通过让模型能够预见多帧内容,团队成功克服了确保视频中的主体即便暂时消失也能保持一致性的难题。
与GPT模型类似,Sora采用了Transformer架构,从而实现了卓越的性能扩展。
OpenAI把视频和图像分解为较小的数据单元——「patches」,每个「patches」相当于GPT中的一个「token」。
这种统一的数据表示方法能够在更广泛的视觉数据上训练扩散Transformer,覆盖了不同的持续时间、分辨率和纵横比。
Sora基于DALL·E和GPT模型的研究成果,采用了DALL·E 3的重标注技术,通过为视觉训练数据生成详细描述的标题,使模型更加准确地遵循用户的文本指令生成视频。
除了能根据文本指令生成视频外,这款模型还能将现有的静态图像转化成视频,精确细致地赋予图像中内容以生动的动画。模型还能扩展现有视频或补全缺失的帧。
Sora为理解和模拟现实世界的模型奠定了基础,对此OpenAI认为这是实现通用人工智能(AGI)的重要步骤。
作品欣赏
无人机从空中俯瞰大苏尔加雷角海滩附近的崎岖悬崖,海浪冲击着岩石,形成白色的浪尖,落日的金色光辉照亮了岩石海岸。远处有一个小岛上立着灯塔,悬崖边缘覆盖着绿色植被。从道路到海滩的陡峭下降和悬崖边缘凸出的景象,展现了海岸的原始美丽和太平洋海岸公路的崎岖风景。
Prompt: Drone view of waves crashing against the rugged cliffs along Big Sur’s garay point beach. The crashing blue waters create white-tipped waves, while the golden light of the setting sun illuminates the rocky shore. A small island with a lighthouse sits in the distance, and green shrubbery covers the cliff’s edge. The steep drop from the road down to the beach is a dramatic feat, with the cliff’s edges jutting out over the sea. This is a view that captures the raw beauty of the coast and the rugged landscape of the Pacific Coast Highway.
原文链接:https://www.technologyreview.com/2024/02/15/1088401/openai-amazing-new-generative-ai-video-model-sora/
参考资料:
https://twitter.com/OpenAI/status/1758192957386342435
https://twitter.com/sama
https://openai.com/sora
对比
当然,随着 Sora 加入这场视频生成领域的战争,受到冲击最大的是同类竞品模型,比如 Runway、Pika、SDV、谷歌和 Meta。
看到 Sora 的生成效果之后,很多人认为,Sora 对这些「前辈」来了一波降维打击。事实真的如此吗?有推特博主已经做了对比。
这位博主给 Sora、Pika、Runway、Stable Video 四个模型输入了相同的 prompt:
美丽、白雪皑皑的东京熙熙攘攘,镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天,在附近的摊位购物,绚丽的樱花花瓣随着雪花随风飘扬。
可以看到,相比于其他三个视频生成模型,Sora 在生成时长、连贯性等方面都有显著的优势。
在 Sora 震撼效果的背后,OpenAI 也于昨日公布了详细的技术报告。
技术报告地址 https://openai.com/research/video-generation-models-as-world-simulators
Sora 背后的技术
OpenAI 在技术报告中重点展示了:(1)将所有类型的视觉数据转化为统一表示,从而能够大规模训练生成模型的方法;以及(2)对 Sora 的能力和局限性进行定性评估。
令人遗憾的是,OpenAI 的报告不包含模型和训练的细节。
最近一段时间,视频生成是 AI 领域的重要方向,先前的许多工作研究了视频数据的生成建模方向,包括循环网络、生成对抗网络、自回归 transformer 和扩散模型。这些工作通常关注一小类视觉数据、较短的视频或固定大小的视频。
与之不同的是,OpenAI 的 Sora 是视觉数据的通用模型,它可以生成不同时长、长宽比和分辨率的视频和图像,而且最多可以输出长达一分钟的高清视频。
视觉数据转为 Patches
大型语言模型通过在互联网规模的数据上进行训练,获得了出色的通用能力中,OpenAI 从这一点汲取了灵感。LLM 得以确立新范式,部分得益于创新了 token 使用的方法。研究人员们巧妙地将文本的多种模态 —— 代码、数学和各种自然语言统一了起来。
在这项工作中,OpenAI 考虑了生成视觉数据的模型如何继承这种方法的好处。大型语言模型有文本 token,而 Sora 有视觉 patches。此前的研究已经证明 patches 是视觉数据模型的有效表示。OpenAI 发现 patches 是训练生成各种类型视频和图像的模型的可扩展且有效的表示。
在更高层面上,OpenAI 首先将视频压缩到较低维的潜在空间,然后将表示分解为时空 patches,从而将视频转换为 patches。
视频压缩网络
OpenAI 训练了一个降低视觉数据维度的网络。该网络将原始视频作为输入,并输出在时间和空间上压缩的潜在表示。Sora 在这个压缩的潜在空间中接受训练,而后生成视频。OpenAI 还训练了相应的解码器模型,将生成的潜在表示映射回像素空间。
时空潜在 patches
给定一个压缩的输入视频,OpenAI 提取一系列时空 patches,充当 Transformer 的 tokens。该方案也适用于图像,因为图像可视为单帧视频。OpenAI 基于 patches 的表示使 Sora 能够对不同分辨率、持续时间和长宽比的视频和图像进行训练。在推理时,OpenAI 可以通过在适当大小的网格中排列随机初始化的 patches 来控制生成视频的大小。
用于视频生成的缩放 Transformer
Sora 是个扩散模型;给定输入噪声 patches(以及文本提示等调节信息),训练出的模型来预测原始的「干净」patches。重要的是,Sora 是一个扩散 Transformer。Transformer 在各个领域都表现出了卓越的缩放特性,包括语言建模、计算机视觉、和图像生成。
在这项工作中,OpenAI 发现扩散 Transformers 也可以有效地缩放为视频模型。下面,OpenAI 展示了训练过程中具有固定种子和输入的视频样本的比较。随着训练计算的增加,样本质量显着提高。
可变的持续时间,分辨率,宽高比
过去的图像和视频生成方法通常需要调整大小、进行裁剪或者是将视频剪切到标准尺寸,例如 4 秒的视频分辨率为 256x256。相反,该研究发现在原始大小的数据上进行训练,可以提供以下好处:
首先是采样的灵活性:Sora 可以采样宽屏视频 1920x1080p,垂直视频 1920x1080p 以及两者之间的视频。这使 Sora 可以直接以其天然纵横比为不同设备创建内容。Sora 还允许在生成全分辨率的内容之前,以较小的尺寸快速创建内容原型 —— 所有内容都使用相同的模型。
其次是改进帧和内容组成:研究者通过实证发现,使用视频的原始长宽比进行训练可以提升内容组成和帧的质量。将 Sora 在与其他模型的比较中,后者将所有训练视频裁剪成正方形,这是训练生成模型时的常见做法。经过正方形裁剪训练的模型(左侧)生成的视频,其中的视频主题只是部分可见。相比之下,Sora 生成的视频(右侧)具有改进的帧内容。
语言理解
训练文本到视频生成系统需要大量带有相应文本字幕的视频。研究团队将 DALL・E 3 中的重字幕(re-captioning)技术应用于视频。
具体来说,研究团队首先训练一个高度描述性的字幕生成器模型,然后使用它为训练集中所有视频生成文本字幕。研究团队发现,对高度描述性视频字幕进行训练可以提高文本保真度以及视频的整体质量。
与 DALL・E 3 类似,研究团队还利用 GPT 将简短的用户 prompt 转换为较长的详细字幕,然后发送到视频模型。这使得 Sora 能够生成准确遵循用户 prompt 的高质量视频。
以图像和视频作为提示
我们已经看到了文本到视频的诸多生成示例。实际上,Sora 还可以使用其他输入,如已有的图像或视频。这使 Sora 能够执行各种图像和视频编辑任务 — 创建完美的循环视频、静态图像动画、向前或向后延长视频时间等。
为 DALL-E 图像制作动画
只要输入图像和提示,Sora 就能生成视频。下面展示了根据 DALL-E 2 和 DALL-E 3 图像生成的视频示例:
狗戴着贝雷帽、穿着黑色高领毛衣
视频内容拓展
Sora 还能够在开头或结尾扩展视频内容。以下是 Sora 从一段生成的视频向后拓展出的三个新视频。新视频的开头各不相同,拥有相同的结尾。
不妨使用这种方法无限延长视频的内容,实现「视频制作永动机」。
视频到视频编辑
扩散模型激发了多种根据文本 prompt 编辑图像和视频的方法。OpenAI 的研究团队将其中一种方法 ——SDEdit 应用于 Sora,使得 Sora 能够在零样本(zero-shot)条件下改变输入视频的风格和环境。
我们还可以使用 Sora 在两个输入视频之间逐渐进行转场,从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。
图像生成能力
Sora 还能生成图像。为此,OpenAI 将高斯噪声 patch 排列在空间网格中,时间范围为一帧。该模型可生成不同大小的图像,最高分辨率可达 2048x2048。
涌现模拟能力
OpenAI 发现,视频模型在经过大规模训练后,会表现出许多有趣的新能力。这些能力使 Sora 能够模拟物理世界中的人、动物和环境的某些方面。这些特性的出现没有任何明确的三维、物体等归纳偏差 — 它们纯粹是规模现象。
三维一致性。Sora 可以生成动态摄像机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中的移动是一致的。
长序列连贯性和目标持久性。视频生成系统面临的一个重大挑战是在对长视频进行采样时保持时间一致性。OpenAI 发现,虽然 Sora 并不总是能有效地模拟短距离和长距离的依赖关系,但它在很多时候仍然能做到这一点。例如,即使人、动物和物体被遮挡或离开画面,Sora 模型也能保持它们的存在。同样,它还能在单个样本中生成同一角色的多个镜头,并在整个视频中保持其外观。
与世界互动。Sora 有时可以模拟以简单方式影响世界状态的动作。例如,画家可以在画布上留下新的笔触,这些笔触会随着时间的推移而持续,或者一个人可以吃汉堡并留下咬痕。
模拟数字世界。Sora 还能模拟人工进程,视频游戏就是一个例子。Sora 可以通过基本策略同时控制 Minecraft 中的玩家,同时高保真地呈现世界及其动态。只需在 Sora 的提示字幕中提及 「Minecraft」,就能零样本激发这些功能。
这些功能表明,视频模型的持续扩展是开发物理和数字世界以及其中的物体、动物和人的高能力模拟器的一条大有可为的道路。
局限性讨论
作为一款模拟器,Sora 目前还存在许多局限性。例如,它不能准确模拟许多基本交互的物理现象,如玻璃碎裂。其他交互,如吃食物,并不总能产生正确的物体状态变化。官方主页列举了该模型的其他常见失效模式,例如长时间样本中出现的不一致性或物体的自发出现。
不过,Sora 目前所展现的能力证明了持续扩大视频模型的规模是一个充满希望的方向,这也将助力物理和数字世界及其中的物体、动物和人类能够有更加精确的模拟。
更多详细内容,请参阅 Sora 原始技术报告。
参考链接:https://openai.com/research/video-generation-models-as-world-simulators
随着媒体狂炒Sora,OpenAI的介绍材料中称Sora是 “world simulator”,世界模型这个词又进入视野,但很少有文章来介绍世界模型。这里回顾一下什么是世界模型,以及讨论Sora是不是 world simulator。
什么是world models/世界模型
当AI领域中讲到 世界/world、环境/environment 这个词的时候,通常是为了与 智能体/agent 加以区分。研究智能体最多的领域,一个是强化学习,一个是机器人领域。因此可以看到,world models、world modeling最早也最常出现在机器人领域的论文中。而今天world models这个词影响最大的,可能是Jurgen 2018年放到arxiv的这篇以“world models”命名的文章,该文章最终以 “Recurrent World Models Facilitate Policy Evolution”的title发表在NeurIPS‘18。
该论文中并没有定义什么是World models,而是类比了认知科学中人脑的mental model,引用了1971年的文献。
Wikipedia中介绍的mental model,很明确的指出其可能参与认知、推理、决策过程。并且说到 mental model 主要包含mental representations 和 mental simulation 两部分。
an internal representation of external reality, hypothesized to play a major role in cognition, reasoning and decision-making. The term was coined by Kenneth Craik in 1943 who suggested that the mind constructs "small-scale models" of reality that it uses to anticipate events.
到这里还是说得云雾缭绕,那么论文中的结构图一目了然的说明了什么是一个world model
图中纵向V->z是观测的低维表征,用VAE实现,水平的M->h->M->h是序列的预测下一个时刻的表征,用RNN实现,这两部分加起来就是World Model。
也就是说,World model的主要包含状态表征和转移模型,这也正好对应mental representations 和 mental simulation。
看到上面这张图可能会想,这不是所有的序列预测都是world model了?其实熟悉强化学习的同学能一眼看出来,这张图的结构是错误(不完整)的,而真正的结构是下面这张图,RNN的输入不仅是z,还有动作action,这就不是通常的序列预测了(加一个动作会很不一样吗?是的,加入动作可以让数据分布自由变化,带来巨大的挑战)。
Jurgen的这篇论文属于强化学习领域。那么,强化学习里不是有很多model-based RL吗,其中的model跟world model有什么区别?答案是没有区别,就是同一个东西。Jurgen先说了一段
在Jurgen文章的早期版本中,还说到很多 model-based RL,虽然学了model,但并没有完全在model中训练RL。
没有完全在model中训练RL,实际上并不是model-based RL的model有什么区别,而是model-based RL这个方向长久以来的无奈:model不够准确,完全在model里训练的RL效果很差。这一问题直到近几年才得到解决。
聪明的Sutton在很久以前就意识到model不够准确的问题。在1990年提出Dyna框架的论文Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming(发表在第一次从workshop变成conference的ICML上),管这个model叫action model,强调预测action执行的结果。RL一边从真实数据中学习(第3行),一边从model中学习(第5行),以防model不准确造成策略学不好。
可以看到,world model对于决策十分重要。如果能获得准确的world model,那就可以通过在world model中就反复试错,找到现实最优决策。
这就是world model的核心作用:反事实推理/Counterfactual reasoning , 也就是说,即便对于数据中没有见过的决策,在world model中都能推理出决策的结果。
了解因果推理的同学会很熟悉反事实推理这个词,在图灵奖得主Judea Pearl的科普读物The book of why中绘制了一副因果阶梯,最下层是“关联”,也就是今天大部分预测模型主要在做的事;中间层是“干预”,强化学习中的探索就是典型的干预;最上层是反事实,通过想象回答 what if 问题。Judea为反事实推理绘制的示意图,是科学家在大脑中想象,这与Jurgen在论文中用的示意图异曲同工。
左:Jurgen论文中的世界模型示意图。右:Judea书中的因果阶梯。
到这里我们可以总结,AI研究人员对world model的追求,是试图超越数据,进行反事实推理,回答what if问题能力的追求。这是一种人类天然具备,而当前的AI还做得很差的能力。一旦产生突破,AI决策能力会大幅提升,实现全自动驾驶等场景应用。
Sora是不是 world simulator
simulator这个词更多出现在工程领域,起作用与world model一样,尝试那些难以在现实世界实施的高成本高风险试错。OpenAI似乎希望重新组成一个词组,但意思不变。
Sora生成的视频,仅能通过模糊的提示词引导,而难以进行准确的操控。因此它更多的是视频工具,而难以作为反事实推理的工具去准确的回答what if问题。
甚至难以评价Sora的生成能力有多强,因为完全不清楚demo的视频与训练数据的差异有多大。
更让人失望的是,这些demo呈现出Sora并没有准确的学到物理规律。已经看到有人指出了Sora生成视频中不符合物理规律之处[ OpenAI 发布文生视频模型 Sora,AI 能理解运动中的物理世界,这是世界模型吗?意味着什么?]
我猜测OpenAI放出这些demo,应该基于非常充足的训练数据,甚至包括CG生成的数据。然而即便如此那些用几个变量的方程就能描述的物理规律还是没有掌握。OpenAI认为Sora证明了一条通往simulators of the physical world的路线,但看起来简单的堆砌数据并不是通向更高级智能技术的道路。
#技术详解及影响分析
sora的野心可远远不止视频生成。
从openai sora[1]的技术报告首段可以看出sora的野心远远不止视频生成,他们的目标是通过视频数据来学习一个世界模型或者世界模拟器,这才是真正令人兴奋和激动的部分。
1-数据工程
1-1 采用patches统一训练数据格式
最早在ViT[2]中出现将图片分patch输入给transformer。
Sora的做法会有些不同,首先通过一个encoder【VAE结构】将视频帧压缩到一个低维度隐式空间(包含时间和空间上的压缩),然后展开成序列的形式送入模型训练,同样的模型预测也是隐式的序列,然后用decoder解码器去解码映射回像素空间形成视频。注意在编码成Spacetime latent patches的时候可能用到了ViViT[3]的时空编码方式
如此一来有两个优势:
统一互联网上不同大小格式的视频和图片数据,统一为patches的格式输入
具有可扩展性,类似于llm中的token,数据格式往往跟网络结构相匹配的
在推理阶段可以通过将patches组合成不同形状从而控制视频生成的尺寸大小
1-2 在原始图片尺寸上训练
优点是使得视频在生成采样时更具有灵活性,可以生成不同尺寸的视频
不需要像2D图片一样去做一些旋转、剪切等数据增强工作,这样反而会影响最终的生成效果,原因可能是因为本来的视频数据是人为拍摄的(具有合理的角度和构图先验),如果去做裁剪,反而破坏了这样的先验信息。从而导致空间的不合理以及时间的不连续。
不需要统一输入的尺寸,因为可以通过encoder将不同尺寸的视频压缩成patches的形式输入
1-3 使用re-captioning获得text-videos对
在训练阶段,将视频按1帧或者隔n帧用DALLE3(CLIP)按照一定的规范形成对应的描述文本,然后输入模型训练。
在推理阶段,首先将用户输入的prompt用GPT4按照一定的规范把它详细化,然后输入模型得到结果。
DALLE2结构
2-网络结构
2-1 DiT[4]
简单来说就是tansformer+ddpm,核心就是用tansformer的结构替换掉stable diffusion中的unet结构,来预测噪声实现去噪。这个替换可以带来以下优势。
随着数据规模或者训练时间的增强,模型表现的效果越好(大力出奇迹的前置条件)
实验表明,模型越大,patches越小,效果越好
2-2 整体结构
参考b站up主ZOMI酱的画的Sora结构[5]。
这张图感觉相对完整准确了,这里补充几点可能的改动和补充。
在Conditioning阶段可能不是一帧对应一个文本,而可能是几帧十几帧对应一段文本描述
在编码成Spacetime latent patches的时候可能用到了ViViT[3]的时空编码方式
输入给Decoder的内容应该是去噪之后的patches序列,这里用patches描述比tokens更准确
3-影响
首当其冲当然是影视和短视频行业,之后可能会推出sora的迭代,生成的时间可能更长类比chatgpt不断增大的输入token,可能sora以后可以生成更多更长的patches。比单纯的视频生成更有价值的是这条道路能不能通向大家都神往的AGI。似乎至少出现了苗头~
3-1 世界模型[6]?
大家广泛讨论和关注的是sora到底是不是或者具不具备世界模型的特征。
简单来讲Sora 具有以下几项能力:
3D一致性。Sora可以生成具有动态摄像机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中保持一致移动。可以认为它具有3D建模和3D生成的能力(可能还不够强,跟3D Gaussain[7]或者NeRF这种需要现实中的带位姿的图片来建模3D场景的能力还有一定细节差距)
长程一致性和物体永久性。对于视频生成系统来说,一个重要的挑战是在采样长视频时保持时间上的一致性。我们发现,Sora通常能够有效地建模短程和长程的依赖关系,尽管并非总是如此。例如,我们的模型可以在人、动物和物体被遮挡或离开画面时仍然保持它们的存在。同样,它可以在一个样本中生成同一角色的多个镜头,并在整个视频中保持它们的外观。
与世界互动。Sora有时可以模拟对世界产生简单影响的动作。例如,画家可以在画布上留下持续存在的新笔触,或者一个人可以吃掉一个汉堡并留下咬痕。可以实现一定程度的物理交互,但是很多时候还是有幻觉或者不准确,但毕竟它竟然可以“实现“!这个能力简直是王炸,CG还需要复杂的光锥模拟、渲染么?还需要复杂的方程和绑定控制么?流体毛发的研究还有价值么?
模拟数字世界。Sora还能够模拟人工过程,一个例子是视频游戏。Sora可以同时使用基本策略控制Minecraft中的玩家,同时以高保真度渲染世界及其动态。通过提示Sora提到“Minecraft”的标题,可以激发这些能力。
很多大佬抨击深度学习不可解释性,可是这种解释性如果在模拟/生成的足够准确的情况下还有没有意义?(sora离足够准确还有一定的距离)
没有学过牛顿力学的人一样可以预测/知道物体自由落体的轨迹;没有学过压力和摩擦力的人一样能预测行驶中的自行车按住刹车的轨迹....对于模型或者机器的学习,是否一定要某个理论或者强制的条件约束?让它只依靠数据经验学习到底可不可行?
3-2 CV大一统?
Sora视频的生成能力同样可以扩展到2D和3D的生成,同样也影响诸如感知、理解等2D/3D任务,如果未来继续迭代变强,似乎能实现CV的大一统,并消灭CG。如果实现CV大一统,那么整个AI都在基于transformer的大力出奇迹的架构下实现了大一统。
参考
[1] https://openai.com/research/video-generation-models-as-world-simulators
[2] https://arxiv.org/abs/2010.11929
[3] abhttps://arxiv.org/pdf/2103.15691.pdf
[4] https://arxiv.org/abs/2212.09748
[5] https://www.bilibili.com/video/BV1Bx4y1k7BQ
[6] https://worldmodels.github.io/
[7] https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/
# 技术解析报告
Sora 的出现是一个里程碑,对生成式 AI 的研究和发展产生了深远影响。本文将从建模、技术推演、语言指令跟随、提示工程、应用和局限性几个方面来解析Sora技术。
论文标题:Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models
论文链接:https://arxiv.org/pdf/2402.17177.pdf
背景
在分析 Sora 之前,研究者首先盘点了视觉内容生成技术的沿袭。
在深度学习革命之前,传统的图像生成技术依赖于基于手工创建特征的纹理合成和纹理映射等方法。这些方法在生成复杂而生动的图像方面能力有限。
如图 3 所示,在过去十年中,视觉类的生成模型经历了多样化的发展路线。
生成对抗网络(GAN)和变分自动编码器(VAE)的引入标志着一个重要的转折点,因为它在各种应用中都具有非凡的能力。随后的发展,如流模型和扩散模型,进一步增强了图像生成的细节和质量。人工智能生成内容(AIGC)技术的最新进展实现了内容创建的民主化,使用户能够通过简单的文本指令生成所需的内容。
在 BERT 和 GPT 成功将 Transformer 架构应用于 NLP 之后,研究人员尝试将其迁移到 CV 领域,比如 Transformer 架构与视觉组件相结合,使其能够应用于下游 CV 任务,包括 Vision Transformer (ViT) 和 Swin Transformer ,从而进一步发展了这一概念。在 Transformer 取得成功的同时,扩散模型也在图像和视频生成领域取得了长足进步。扩散模型为利用 U-Nets 将噪声转换成图像提供了一个数学上合理的框架,U-Nets 通过学习在每一步预测和减轻噪声来促进这一过程。
自 2021 年以来,能够解释人类指令的生成语言和视觉模型,即所谓的多模态模型,成为了人工智能领域的热门议题。
CLIP 是一种开创性的视觉语言模型,它将 Transformer 架构与视觉元素相结合,便于在大量文本和图像数据集上进行训练。通过从一开始就整合视觉和语言知识,CLIP 可以在多模态生成框架内充当图像编码器。
另一个值得注意的例子是 Stable Diffusion,它是一种多用途文本到图像人工智能模型,以其适应性和易用性而著称。它采用 Transformer 架构和潜在扩散技术来解码文本输入并生成各种风格的图像,进一步说明了多模态人工智能的进步。
ChatGPT 2022 年 11 月发布之后,2023 年出现了大量文本到图像的商业化产品,如 Stable Diffusion、Midjourney、DALL-E 3。这些工具能让用户通过简单的文字提示生成高分辨率和高质量的新图像,展示了人工智能在创意图像生成方面的潜力。
然而,由于视频的时间复杂性,从文本到图像到文本到视频的过渡具有挑战性。尽管工业界和学术界做出了许多努力,但大多数现有的视频生成工具,如 Pika 和 Gen-2 ,都仅限于生成几秒钟的短视频片段。
在这种情况下,Sora 是一项重大突破,类似于 ChatGPT 在 NLP 领域的影响。Sora 是第一个能够根据人类指令生成长达一分钟视频的模型,同时保持较高的视觉质量和引人注目的视觉连贯性,从第一帧到最后一帧都具有渐进感和视觉连贯性。
这是一个里程碑,对生成式 AI 的研究和发展产生了深远影响。
如图 2 所示,Sora 在准确解读和执行复杂的人类指令方面表现出非凡的能力。该模型可以生成包含多个角色的详细场景,这些角色在错综复杂的背景下执行特定的动作。研究人员认为,Sora 不仅能熟练处理用户生成的文本提示,还能辨别场景中各种元素之间复杂的相互作用。
此外,Sora 的进步还体现在它能够生成具有细微运动和交互描绘的扩展视频序列,克服了早期视频生成模型所特有的短片段和简单视觉渲染的限制。这种能力代表了人工智能驱动的创意工具的飞跃,使用户能够将文字叙述转换成丰富的视觉故事。
总之,这些进步显示了 Sora 作为世界模拟器的潜力,它可以提供对所描绘场景的物理和背景动态的细微洞察。
为了方便读者查阅视觉生成模型的最新进展,研究者在论文附录汇编了近期的代表性工作成果。
技术推演
Sora 的核心是一个预训练的扩散 Transformer。事实证明,Transformer 模型在许多自然语言任务中都具有可扩展性和有效性。与 GPT-4 等强大的大型语言模型(LLM)类似,Sora 可以解析文本并理解复杂的用户指令。为了提高视频生成的计算效率,Sora 采用了时空潜在 patch 作为其构建模块。
具体来说,Sora 会将原始输入视频压缩为潜在时空表示。然后,从压缩视频中提取一系列潜在时空 patch,以囊括短暂时间间隔内的视觉外观和运动动态。这些片段类似于语言模型中的词 token,为 Sora 提供了详细的视觉短语,可用于构建视频。Sora 的文本到视频生成由扩散 Transformer 模型完成。从充满视觉噪音的帧开始,该模型会对图像进行迭代去噪,并根据提供的文本提示引入特定细节。本质上讲,生成的视频是通过多步完善过程产生的,每一步都会对视频进行完善,使其更加符合所需的内容和质量。
如图 4 所示,Sora 的核心本质是一个具有灵活采样维度的扩散 Transformer。它由三部分组成:(1)时空压缩器首先将原始视频映射到潜在空间。(2) 然后,ViT 处理 token 化的潜在表示,并输出去噪潜在表示。(3) 类似 CLIP 的调节机制接收 LLM 增强的用户指令和潜在的视觉提示,引导扩散模型生成风格化或主题化的视频。经过许多去噪步骤后,生成视频的潜在表示被获取,然后通过相应的解码器映射回像素空间。
在本节中,研究者对 Sora 所使用的技术进行了逆向工程,并讨论了一系列相关工作。
数据预处理
Sora 的一个显著特征是它能够训练、理解和生成原始尺寸的视频和图像,如图 5 所示。而传统方法通常会调整视频大小、裁剪或调整视频的长宽比以适应统一的视频和图像。利用扩散 Transformer 架构,Sora 是第一个拥抱视觉数据多样性的模型,可以以多种视频和图像格式进行采样,范围从宽屏 1920x1080p 视频到垂直 1080x1920p 视频以及介于两者之间的视频,而不影响其原始尺寸。
如图 6 所示,Sora 生成的视频能够更好的展现主题,从而确保在场景中完全捕捉到拍摄对象,而其他视频有时会导致视图被截断或裁剪,导致拍摄对象脱离画面。
统一视觉表示。为了有效处理不同持续时间、分辨率和高宽比的图像和视频,关键在于将所有形式的视觉数据转换为统一表示。
Sora 处理的过程是这样的:首先将视频压缩到低维潜在空间,然后将表示分解为时空 patch 来对视频进行 patch 化(patchifies)。但是回看 Sora 技术报告,他们仅仅提出了一个高层次的想法,这给研究界的复现带来了挑战。在接下来的章节中,本文尝试对 Sora 的技术路径进行逆向工程,并且借鉴现有文献,讨论可以复现 Sora 的可行替代方案。
首先是视频压缩网络。Sora 的视频压缩网络(或视觉编码器)旨在降低输入数据(尤其是原始视频)的维度,并输出在时间和空间上压缩过的潜在表示,如图 7 所示。根据技术报告中的参考文献, Sora 压缩网络是基于 VAE 或 VQ-VAE 技术的。
然而,如果不像技术报告中对视频和图像调整大小和裁剪,那么 VAE 将任何大小的视觉数据映射到统一且固定大小的潜在空间挑战巨大。本文总结了两种不同的实现来解决这个问题:
空间 patch 压缩:涉及将视频帧转换为固定大小的 patch,类似于 ViT 和 MAE 中使用的方法(见图 8),然后将其编码到潜在空间中,这种方法对于适应不同分辨率和宽高比的视频特别有效。随后,将这些空间 token 按时间序列组织在一起,以创建时间 - 空间潜在表征。
时间 - 空间 patch 压缩:该技术旨在封装视频数据的空间和时间维度,从而提供全面的表示。该技术不仅仅分析静态帧,还考虑帧间的运动和变化,从而捕获视频的动态信息。3D 卷积的利用成为实现这种集成的一种简单而有效的方法。
图 9 描绘了不同视频压缩方式的比较。与空间 patch 压缩类似,使用具有预定卷积核参数(例如固定内核大小、步幅和输出通道)的时间 - 空间 patch 压缩会导致潜在空间维度也不同。为了缓解这一挑战,空间修补(spatial patchification)所采用的方法在这种情况下同样适用和有效。
总的来说,本文基于 VAE 或其变体如 VQ-VQE 逆向工程了两种 patch 级压缩方法,因为 patch 对处理不同类型的视频更加灵活。由于 Sora 旨在生成高保真视频,因此使用了较大尺寸的 patch 或内核尺寸以实现高效压缩。这里,本文期望使用固定大小的 patch,以简化操作、扩展性和训练稳定性。但也可以使用不同大小的 patch,以使整个帧或视频在潜在空间中的尺寸保持一致。然而,这可能导致位置编码无效,并且给解码器生成具有不同大小潜在 patch 的视频带来挑战。
压缩网络部分还有一个关键问题:在将 patch 送入扩散 Transformer 的输入层之前,如何处理潜在空间维度的变化(即不同视频类型的潜在特征块或 patch 的数量)。这里讨论了几种解决方案:
根据 Sora 的技术报告和相应的参考文献,patch n' pack(PNP)很可能是一种解决方案。如图 10 所示,PNP 将来自不同图像的多个 patch 打包在一个序列中。这种方法的灵感来源于自然语言处理中使用的样本打包,它通过丢弃 token 来实现对不同长度输入的高效训练。在这里,patch 化和 token 嵌入步骤需要在压缩网络中完成,但 Sora 可能会像 Diffusion Transformer(扩散 Transformer)那样,为 Transformer token 进一步 patch 化。
无论是否有第二轮修补,都需要解决两个问题:如何以紧凑的方式打包这些 token,以及如何控制哪些 token 应该被丢弃。
对于第一个问题,研究者采用了简单的「贪心」算法,即在第一个序列中添加足够剩余空间的样本。一旦没有样本可以容纳,序列就会被填充 token 填满,从而产生批处理操作所需的固定序列长度。这种简单的打包算法可能会导致大量填充,这取决于输入长度的分布情况。另一方面,可以控制采样的分辨率和帧数,通过调整序列长度和限制填充来确保高效打包。
对于第二个问题,直观的方法是丢弃相似的 token,或者像 PNP 一样,使用丢弃率调度器。不过,值得注意的是,三维一致性是 Sora 的优良特性之一。在训练过程中,丢弃 token 可能会忽略细粒度的细节。因此,研究者认为 OpenAI 很可能会使用超长的上下文窗口并打包视频中的所有 token,尽管这样做的计算成本很高,例如,多头注意力算子在序列长度上表现出二次成本。具体来说,一个长时间视频中的时空潜在 patch 可以打包到一个序列中,而多个短时间视频中的时空潜在 patch 则会串联到另一个序列中。
建模
图像 DiT
传统的扩散模型主要利用包含下采样和上采样块的卷积 U-Net 作为去噪网络骨干。然而,最近的研究表明,U-Net 架构对扩散模型的良好性能并非至关重要。
通过采用更灵活的 Transformer 架构,基于 Transformer 的扩散模型可以使用更多的训练数据和更大的模型参数。沿着这一思路,DiT 和 U-ViT 是第一批将视觉 Transformer 用于潜在扩散模型的作品。
与 ViT 一样,DiT 也采用了多头自注意力层和层范数和缩放层交错的逐点前馈网络。如图 11 所示,DiT 还通过 AdaLN 进行调节,并增加了一个用于零初始化的 MLP 层,将每个残差块初始化为一个恒等函数,从而大大稳定了训练过程。DiT 的可扩展性和灵活性得到了经验验证。
在 U-ViT 中,如图 11 所示,将包括时间、条件和噪声图像片段在内的所有输入都视为 token,并在浅层和深层 Transformer 层之间提出了长跳跃连接。结果表明,基于 CNN 的 U-Net 中的下采样和升采样算子并非总是必要的,U-ViT 在图像和文本到图像生成方面取得了破纪录的 FID 分数。
与掩蔽自编码器(MAE)一样,掩蔽扩散 Transformer(MDT)也在扩散过程中加入了掩码潜在模型,以明确增强图像合成中对象语义部分之间的上下文关系学习。
具体来说,如图 12 所示,MDT 在训练过程中使用边缘插值(side-interpolated)进行额外的掩蔽 token 重建任务,以提高训练效率,并学习强大的上下文感知位置嵌入进行推理。与 DiT 相比,MDT 实现了更好的性能和更快的学习速度。Hatamizadeh et al. 没有使用 AdaLN(即移位和缩放)进行时间条件建模,而是引入了 Diffusion Vision Transformers (DiffiT),它使用与时间相关的自注意力(TMSA)模块对采样时间步长内的动态去噪行为进行建模。此外,DiffiT 采用两种混合分层架构,分别在像素空间和潜在空间进行高效去噪,并在各种生成任务中取得了新的先进成果。总之,这些研究表明,利用视觉 Transformer 进行图像潜在扩散取得了可喜的成果,为面向其他模态的研究铺平了道路。
视频 DiT
在文本到图像(T2I)扩散模型的基础上,一些近期研究专注于发挥扩散 Transformer 在文本到视频(T2V)生成任务中的潜力。由于视频的时空特性,在视频领域应用 DiT 所面临的主要挑战是:i) 如何将视频从空间和时间上压缩到潜在空间,以实现高效去噪;ii) 如何将压缩潜在空间转换为 patch,并将其输入 Transformer ;iii) 如何处理长序列时空依赖性,并确保内容一致性。
这里将讨论基于 Transformer 的去噪网络架构(该架构旨在时空压缩的潜在空间中运行)下文详细回顾了 OpenAI Sora 技术报告参考文献列表中介绍的两项重要工作(Imagen Video 和 Video LDM)。
Imagen Video 是谷歌研究院开发的文本到视频生成系统,它利用级联扩散模型(由 7 个子模型组成,分别执行文本条件视频生成、空间超分辨率和时间超分辨率)将文本提示转化为高清视频。
如图 13 所示,首先,冻结的 T5 文本编码器会根据输入的文本提示生成上下文嵌入。这些嵌入对于将生成的视频与文本提示对齐至关重要,除了基础模型外,它们还被注入级联中的所有模型。随后,嵌入信息被注入基础模型,用于生成低分辨率视频,然后由级联扩散模型对其进行细化以提高分辨率。基础视频和超分辨率模型采用时空可分离的 3D U-Net 架构。该架构将时间注意力层和卷积层与空间对应层结合在一起,以有效捕捉帧间依赖关系。它采用 v 预测参数化来实现数值稳定性和条件增强,以促进跨模型的并行训练。
这一过程包括对图像和视频进行联合训练,将每幅图像视为一帧,以利用更大的数据集,并使用无分类器引导来提高提示保真度。渐进式蒸馏法用于简化采样过程,在保持感知质量的同时大大减少了计算负荷。将这些方法和技术相结合,Imagen Video 不仅能生成高保真视频,而且还具有出色的可控性,这体现在它能生成多样化的视频、文本动画和各种艺术风格的内容。
Blattmann et al. 建议将二维潜在扩散模型转化为视频潜在扩散模型(Video LDM)。为此,他们在 U-Net 主干网和 VAE 解码器的现有空间层中添加了一些临时时间层,以学习如何对齐单个帧。这些时间层在编码视频数据上进行训练,而空间层则保持固定,从而使模型能够利用大型图像数据集进行预训练。LDM 的解码器可进行微调,以实现像素空间的时间一致性和时间对齐扩散模型上采样器,从而提高空间分辨率。
为了生成超长视频,作者对模型进行了训练,以预测未来帧的上下文帧数,从而在采样过程中实现无分类器引导。为实现高时间分辨率,作者将视频合成过程分为关键帧生成和这些关键帧之间的插值。在级联 LDM 之后,使用 DM 将视频 LDM 输出进一步放大 4 倍,确保高空间分辨率的同时保持时间一致性。这种方法能以高效的计算方式生成全局一致的长视频。此外,作者还展示了将预先训练好的图像 LDM(如稳定扩散)转化为文本到视频模型的能力,只需训练时间对齐层,即可实现分辨率高达 1280 × 2048 的视频合成。
语言指令跟随
为了提高文本到视频模型遵循文本指令的能力,Sora 采用了与 DALL・E 3 类似的方法。
DALL・E 3 中的指令跟随是通过一种描述改进方法来解决的,其假设是模型所训练的文本 - 图像对的质量决定了最终文本 - 图像模型的性能。数据质量差,尤其是普遍存在的噪声数据和省略了大量视觉信息的简短标题,会导致许多问题,如忽略关键词和词序,以及误解用户意图等。描述改进方法通过为现有图像重新添加详细的描述性描述来解决这些问题。该方法首先训练图像描述器(视觉语言模型),以生成精确的描述性图像描述。然后,描述器生成的描述性图像描述将用于微调文本到图像模型。
具体来说,DALL・E 3 采用对比式描述器(CoCa),联合训练具有 CLIP 架构和语言模型目标的图像描述器。该图像描述器包含一个图像编码器、一个用于提取语言信息的单模态文本编码器和一个多模态文本解码器。它首先在单模态图像和文本嵌入之间采用对比损失,然后对多模态解码器的输出采用描述损失。由此产生的图像描述器将根据对图像的高度详细描述进行进一步微调,其中包括主要对象、周围环境、背景、文本、风格和色彩。通过这一步骤,图像描述器就能为图像生成详细的描述性描述。文本到图像模型的训练数据集由图像描述生成器生成的重新描述数据集和真实人工编写数据混合而成,以确保模型捕捉到用户输入。
这种图像描述改进方法带来了一个潜在问题:实际用户提示与训练数据中的描述性图像描述不匹配。DALL・E 3 通过上采样解决了这一问题,即使用 LLM 将简短的用户提示改写成详细而冗长的说明。这确保了模型在推理时接收到的文本输入与模型训练时的文本输入保持一致。
为了提高指令跟踪能力,Sora 采用了类似的描述改进方法。这种方法是通过首先训练一个能够为视频制作详细说明的视频描述器来实现的。然后,将该视频描述器应用于训练数据中的所有视频,生成高质量的(视频、描述性描述)对,用于微调 Sora,以提高其指令跟随能力。
Sora 的技术报告没有透露视频描述器是如何训练的细节。鉴于视频描述器是一个视频到文本的模型,因此有很多方法来构建它:
一种直接的方法是利用 CoCa 架构来制作视频描述,方法是获取视频的多个帧,并将每个帧输入图像编码器,即 VideoCoCa。VideoCoCa 以 CoCa 为基础,重新使用图像编码器预训练的权重,并将其独立应用于采样视频帧。由此产生的帧 token 嵌入会被扁平化,并连接成一长串视频表示。然后,生成式池化层和对比池化层会对这些扁平化的帧 token 进行处理,二者是用对比损失和描述损失联合训练的。
其他可用于构建视频描述的方法包括 mPLUG-2、GIT、FrozenBiLM 等。
最后,为确保用户提示与训练数据中的描述性描述格式一致,Sora 还执行了额外的提示扩展步骤,即使用 GPT-4V 将用户输入扩展为详细的描述性提示。
然而,Sora 训练描述器的数据收集过程尚不清楚,而且很可能需要大量人力,因为这可能需要对视频进行详细描述。此外,描述性视频描述可能会对视频的重要细节产生幻觉。本文作者认为,如何改进视频描述器值得进一步研究,这对提高文本到图像模型的指令跟踪能力至关重要。
提示工程
文本提示
文本提示工程对于指导文本视频模型制作出既具有视觉冲击力又能精确满足用户规格的视频至关重要。这就需要制作详细的描述来指导模型,以有效弥合人类创造力与人工智能执行能力之间的差距。
Sora 的提示涵盖了广泛的场景。近期的作品(如 VoP、Make-A-Video 和 Tune-A-Video)展示了提示工程如何利用模型的自然语言理解能力来解码复杂指令,并将其呈现为连贯、生动和高质量的视频叙事。
如图 15 所示,「一个时髦的女人走在霓虹灯闪烁的东京街头...... 」就是这样一个精心制作的文本提示,它确保 Sora 生成的视频与预期的视觉效果非常吻合。提示工程的质量取决于对词语的精心选择、所提供细节的具体性以及对其对模型输出影响的理解。例如,图 15 中的提示详细说明了动作、设置、角色出场,甚至是所期望的场景情绪和氛围。
图像提示
图像提示为即将生成的视频内容和其他元素(如人物、场景和情绪)提供了视觉锚点。此外,文字提示还可以指示模型将这些元素动画化,例如,添加动作、互动和叙事进展等层次,使静态图像栩栩如生。通过使用图像提示,Sora 可以利用视觉和文本信息将静态图像转换成动态的、由叙事驱动的视频。
图 16 展示了人工智能生成的视频:「一只头戴贝雷帽、身穿高领毛衣的柴犬」、「一个独特的怪物家族」、「一朵云组成了 SORA 一词」以及「冲浪者在一座历史悠久的大厅内驾驭潮汐」。这些例子展示了通过 DALL・E 生成的图像提示 Sora 可以实现哪些功能。
视频提示
视频提示也可用于视频生成。最近的研究(如 Moonshot 和 Fast-Vid2Vid)表明,好的视频提示需要「具体」而「灵活」。这样既能确保模型在特定目标(如特定物体和视觉主题的描绘)上获得明确的指导,又能在最终输出中允许富有想象力的变化。
例如,在视频扩展任务中,提示可以指定扩展的方向(时间向前或向后)和背景或主题。在图 17 (a) 中,视频提示指示 Sora 向后延伸一段视频,以探索导致原始起点的事件。如图 17(b)所示,在通过视频提示执行视频到视频的编辑时,模型需要清楚地了解所需的转换,例如改变视频的风格、场景或氛围,或改变灯光或情绪等微妙的方面。在图 17 (c) 中,提示指示 Sora 连接视频,同时确保视频中不同场景中的物体之间平滑过渡。
虽然以前关于提示工程的研究主要集中在 LLM 和 LVM 的文本和图像提示上,但预计研究者们对视频生成模型的视频提示的兴趣会越来越大。
应用
随着以 Sora 为代表的视频扩散模型技术取得突破,其在不同研究领域和行业的应用正在迅速加速。
本文作者指出,这项技术的影响远远超出了单纯的视频创作,为从自动内容生成到复杂决策过程的各种任务提供了变革潜力。
在论文的第四章中,全面探讨了视频扩散模型的当前应用,希望为实际部署方案提供一个广阔的视角(图 18):
提高模拟能力:对 Sora 进行大规模训练,是因为它能够出色地模拟物理世界的各个方面。尽管没有明确的三维建模,但 Sora 通过动态摄像机运动和远距离连贯性表现出三维一致性,包括物体持久性和模拟与世界的简单交互。此外,Sora 还能模拟类似 Minecraft 的数字环境,在保持视觉保真度的同时由基本策略控制,这一点非常有趣。这些新出现的能力表明,可扩展视频模型可以有效地创建人工智能模型,以模拟物理和数字世界的复杂性。
提高创造力:想象一下,通过文字勾勒出一个概念,无论是一个简单的物体还是一个完整的场景,都能在几秒钟内呈现出逼真或高度风格化的视频。Sora 可以加速设计过程,更快地探索和完善创意,从而大大提高艺术家、电影制作人和设计师的创造力。
推动教育创新:长期以来,视觉辅助工具一直是教育领域理解重要概念不可或缺的工具。有了 Sora,教育工作者可以轻松地将课堂计划从文字变成视频,吸引学生的注意力,提高学习效率。从科学模拟到历史剧,可能性是无限的。
增强可访问性:提高视觉领域的可访问性至关重要。Sora 通过将文字描述转换为可视内容,提供了一种创新的解决方案。这种功能使包括视觉障碍者在内的所有人都能积极参与内容创建,并以更有效的方式与他人互动。因此,它可以创造一个更具包容性的环境,让每个人都有机会通过视频表达自己的想法。
促进新兴应用:Sora 的应用领域非常广泛。例如,营销人员可以用它来制作针对特定受众描述的动态广告。游戏开发商可以利用它根据玩家的叙述生成定制的视觉效果甚至角色动作。
具体而言,以下几个行业将面临变革:
影视
传统上,创作电影是一个艰巨而昂贵的过程,往往需要数十年的努力、尖端的设备和大量的资金投入。先进视频生成技术的出现预示着电影制作进入了一个新时代,从简单的文本输入中自主生成电影的梦想正在成为现实。事实上,研究人员已经涉足电影生成领域,将视频生成模型扩展到电影创作中。
MovieFactory 应用扩散模型从 ChatGPT 制作的精心脚本中生成电影风格的视频,这是一个重大飞跃。在后续研究中,MobileVidFactory 只需用户提供简单的文本,就能自动生成垂直移动视频。Vlogger 则让用户可以制作长达一分钟的 Vlog。
Sora 能够毫不费力地生成引人入胜的电影内容,这是这些发展的缩影,标志着电影制作民主化的关键时刻。它们让人们看到了一个人人都能成为电影制作人的未来,大大降低了电影行业的准入门槛,并为电影制作引入了一个新的维度,将传统的故事讲述方式与人工智能驱动的创造力融为一体。这些技术的影响不仅仅是简单化。它们有望重塑电影制作的格局,使其在面对不断变化的观众喜好和发行渠道时,变得更加容易获得,用途更加广泛。
游戏
游戏产业一直在寻求突破逼真度和沉浸感界限的方法,但传统游戏开发往往受到预先渲染的环境和脚本事件的限制。通过扩散模型效果实时生成动态、高保真视频内容和逼真音效,有望克服现有的限制,为开发人员提供工具来创建不断变化的游戏环境,对玩家的行为和游戏事件做出有机的反应。这可能包括生成不断变化的天气条件、改变地貌,甚至即时创建全新的设置,从而使游戏世界更加身临其境、反应更加灵敏。一些方法还能从视频输入中合成逼真的冲击声,增强游戏音频体验。
将 Sora 集成到游戏领域后,就能创造出无与伦比的身临其境的体验,吸引并吸引玩家。游戏的开发、玩耍和体验方式都将得到创新,并为讲故事、互动和沉浸式体验带来新的可能性。
医疗
尽管具有生成能力,但视频扩散模型在理解和生成复杂视频序列方面表现出色,因此特别适用于识别人体内的动态异常,如早期细胞凋亡、皮肤病变进展和不规则人体运动,这对早期疾病检测和干预策略至关重要。此外,MedSegDiffV2 等模型利用 Transformer 的强大功能,以前所未有的精度分割医学影像,使临床医生能够在各种成像模式中精确定位感兴趣的区域,提高准确性。
将 Sora 集成到临床实践中,不仅有望完善诊断流程,还能根据精确的医学影像分析提供量身定制的治疗方案,实现患者护理的个性化。然而,这种技术整合也带来了一系列挑战,包括需要采取强有力的数据隐私措施和解决医疗保健中的伦理问题。
机器人
视频扩散模型目前在机器人技术中发挥着重要作用,它展示了一个新时代:机器人可以生成和解释复杂的视频序列,以增强感知和决策。这些模型释放了机器人的新能力,使它们能够与环境互动,以前所未有的复杂度和精确度执行任务。将网络规模扩散模型引入机器人学,展示了利用大规模模型增强机器人视觉和理解能力的潜力。潜在扩散模型被用于语言指导的视频预测,使机器人能够通过预测视频格式的行动结果来理解和执行任务。此外,视频扩散模型能够创建高度逼真的视频序列,创新性地解决了机器人研究依赖模拟环境的问题。这样就能为机器人生成多样化的训练场景,缓解真实世界数据匮乏所带来的限制。
将 Sora 等技术整合到机器人领域有望取得突破性发展。通过利用 Sora 的强大功能,未来的机器人技术将取得前所未有的进步,机器人可以无缝导航并与周围环境互动。
局限性
最后,研究者指出了 Sora 这项新技术存在的风险问题和局限性。
随着 ChatGPT 、GPT4-V 和 Sora 等复杂模型的快速发展,这些模型的能力得到了显著提高。这些发展为提高工作效率和推动技术进步做出了重大贡献。然而,这些进步也引发了人们对这些技术可能被滥用的担忧,包括假新闻的产生、隐私泄露和道德困境。因此,大模型的可信度问题引起了学术界和工业界的广泛关注,成为当下研究讨论的焦点。
虽然 Sora 的成就凸显了人工智能的重大进步,但挑战依然存在。在描绘复杂动作或捕捉微妙面部表情方面,该模型还有待改进。此外,减少生成内容中的偏见和防止有害的视觉输出等道德方面的考虑也强调了开发人员、研究人员和更广泛的社区负责任使用的重要性。确保 Sora 的输出始终安全、无偏见是一项主要挑战。
但伴随着视频生成领域的发展,学术界和工业界的研究团队都取得了长足的进步。文本到视频竞争模式的出现表明,Sora 可能很快就会成为动态生态系统的一部分。这种合作与竞争的环境促进了创新,从而提高了视频质量并开发了新的应用,有助于提高工人的工作效率,使人们的生活更具娱乐性。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。