当前位置:   article > 正文

OpenAI:Sora视频生成模型

OpenAI:Sora视频生成模型

Sora,美国人工智能研究公司OpenAI发布的人工智能文生视频大模型(但OpenAI并未单纯将其视为视频模型,而是作为“世界模拟器”),于2024年2月15日(美国当地时间)正式对外发布。

Sora这一名称源于日文“空”(そら sora),即天空之意,以示其无限的创造潜力。其背后的技术是在OpenAI的文本到图像生成模型DALL-E基础上开发而成的。

Sora可以根据用户的文本提示创建最长60秒的逼真视频,该模型了解这些物体在物理世界中的存在方式,可以深度模拟真实物理世界,能生成具有多个角色、包含特定运动的复杂场景。继承了DALL-E 3的画质和遵循指令能力,能理解用户在提示中提出的要求。

Sora对于需要制作视频的艺术家、电影制片人或学生带来无限可能,其是OpenAI“教AI理解和模拟运动中的物理世界”计划的其中一步,也标志着人工智能在理解真实世界场景并与之互动的能力方面实现飞跃。

行业背景

OpenAI在大模型领域的成功

2022年底,OpenAI正式推出ChatGPT,这款由人工智能技术驱动的自然语言处理工具能够通过学习和理解人类的语言来进行对话。ChatGPT是OpenAI迈出的第一步,这款让所有人都能体会到人工智能潜力的现象级产品,展现出了文字对于过去人工智能的理解力和逻辑能力的超越。随后,OpenAI的开发重点逐步过渡到图像的生成,Dall-E模型在生成图像方面也获得了重大突破。

视觉算法的进步

视觉算法近年来的突破在泛化性、可提示性、生成质量和稳定性等方面均取得了进展,这预示着技术拐点的临近以及爆款应用的涌现。特别是在3D资产生成和视频生成领域,由于扩散算法的成熟,这些领域受益匪浅。然而,与图像生成相比,3D资产和视频生成在数据和算法方面面临的难点更多。

尽管如此,考虑到大型语言模型(LLM)对人工智能各领域的加速作用以及已经出现的优秀开源模型,2024年该行业有望实现更大的发展。在2023年末至2024年初,Pika、HeyGen等人工智能生成的视频应用逐渐受到关注,这验证了多模态技术的持续进步与成熟。但与此同时,民主倡导者和人工智能研究人员警告说,这些工具已经被用来欺骗和欺骗民众。

名字由来

Sora在日语中是“天空”(そら)的意思,引申含义还有“自由”,象征着其无限的创造潜力。

Sora 官网

发展历程

模型发展

2021年1月5日

文生图模型Dall-E发布

Dall-E可以根据简单的描述创建逼真和清晰的图像,精通各种艺术风格,还可以生成文字制作建筑物上的标志,并制作同一场景的草图和全彩图像。

2022年4月

Dall-E 2发布

Dall-E 2不仅可以生成更真实和更准确的画像,而且能够将文本描述中的概念、属性和风格等元素综合起来,生成现实主义的图像和艺术作品。

2022年11月30日

大语言模型ChatGPT发布

ChatGPT不仅能与人对话,还能编写代码、创作内容等,这一款革命性产品的上线引发全球关注,上线仅5天用户数量就已突破100万。

2023年3月15日

GPT-4正式面世

GPT-4可以更准确地解决用户的难题,多模态的GPT-4还可以生成、编辑具有创意性或技术性的文章,在高级推理方面的表现超过其前代产品。

2023年9月21日

Dall-E 3正式发布

Dall-E 3能够更准确、更优秀地生成效果,可以更准确地呈现用户的想法,用户可以要求ChatGPT提供合适的提示词。

2024年2月16日

Sora问世

Sora继承了Dall-E 3的画质和遵循指令能力,可以根据用户的文本提示创建逼真的视频,可以深度模拟真实物理世界,能生成具有多个角色、包含特定运动的复杂场景。

正式发布

美国当地时间2024年2月15日,OpenAI正式发布文生视频模型Sora,并发布了48个文生视频案例和技术报告,正式入局视频生成领域。Sora能够根据提示词生成60s的连贯视频,“碾压”了行业目前大概只有平均“4s”的视频生成长度。

OpenAI CEO奥特曼在社交媒体展示Sora的能力

功能特色

优点

功能综述

Sora可以快速制作最长一分钟、准确反映用户提示、可一镜到底的视频(其他AI视频工具还在突破几秒内的连贯性),视频可以呈现“具有多个角色、特定类型的动作、以及主题和背景的准确细节的复杂场景”。

中国龙年舞龙

雨后的东京街头

行驶中的列车窗外

好莱坞大片质感的电影预告片

加州淘金热时期的历史镜头

玻璃球的特写视图

24岁女性眨眼的极端特写

静态图生成视频

Sora还具备根据静态图像生成视频的能力,能够让图像内容动起来,并关注细节部分,使得生成的视频更加生动逼真,这一功能在动画制作、广告设计等领域具有应用前景 [3-4]。

视频扩展与缺失帧填充

Sora能够获取现有视频并对其进行扩展或填充缺失的帧,这一功能在视频编辑、电影特效等领域具有应用前景,可以帮助用户快速完成视频内容的补充和完善 [3-4]。

连接视频

可以使用Sora连接两个输入视频,在具有完全不同主题和场景组成的视频之间实现无缝过渡 [3]。

其他能力

Sora的其他能力

能力

描述

图像生成

Sora可以生成各种尺寸的图像,分辨率最高达2048×2048。

3D一致

Sora可以生成动态运动的视频,随着相机的移动和旋转,人和场景元素在三维空间中一致移动。

远距离连贯性

物体持久性

Sora通常能够有效地对短期和长期依赖关系进行建模,包括人、动物和物体的持久化,即使它们被遮挡或离开框架。同时,它还能在单个样本中生成同一角色的多个镜头,以保持其在整个视频中的外观。

互动性

Sora有时可以用简单的方式模拟影响世界状态的动作。例如一个画家可以在画布上留下新的笔触,并随着时间的推移而持续,或者一个男人可以吃汉堡并留下咬痕 [3]。

模拟数字世界

Sora可以模拟人工过程,例如电子游戏,并能够通过基本策略控制玩家,同时高保真地渲染世界及其动态 [3]。

多机位

Sora可以生成多机位、多角度的视频 [44]。

缺点

Sora也存有以下弱点:可能难以准确模拟复杂场景的物理原理,无法理解因果关系,混淆提示的空间细节,难以精确描述随着时间推移发生的事件 [4]。

狼在追逐打闹过程中,可能会凭空多出或消失

例如,在“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”的场景中,狼的数量会变化,一些凭空出现或消失。在提示词“篮球穿过篮筐然后爆炸”中,篮球没有正确被篮筐阻挡 [4]。

没有正确表示篮球穿过篮筐的过程

OpenAI表示,Sora存在不成熟之处,可能难以理解因果关系,多位人工智能领域人士表示,该问题可能因其概率模式的逻辑存有“硬伤”。加大训练量、增加训练数据与物理逻辑可改善该问题,但无法根治。想要真正突破最底层逻辑上的问题,因果关系是一条必经之路 [41]。

技术特点

多帧预测生成

Sora是一种扩散模型,具备从噪声中生成完整视频的能力,它生成的视频一开始看起来像静态噪音,通过多个步骤逐渐去除噪声后,视频也从最初的随机像素转化为清晰的图像场景 [22],其能够一次生成多帧预测,确保画面主体在暂时离开视野时仍保持一致 [3-4]。

特殊架构

Sora采用与GPT模型相似的Transformer架构,OpenAI用Transformer结构替代Diffusion模型中常用的U-Net结构,提升了原来Diffusion模型在深度和宽度上的可扩展性,为视频模型增加输出时长奠定基础 [40]。Transformer架构能够处理长序列数据,并通过自注意力机制捕捉数据中的依赖关系,从而提高模型的生成能力 [3-4]。但为了解决Transformer架构在长文本和高分辨率图像处理上的问题,扩散模型采用更可扩展的状态空间模型SSM)主干替代了传统的注意力机制,从而减少了算力需求,并能够生成高分辨率图像 [10]。

Transformer架构示意图

训练计算量增加,输出质量提升

重述提示词

Sora借鉴DALL-E 3的“重述提示词技术”,为视觉训练数据生成高度描述性的标注,这使得模型能够更忠实地遵循用户的文本指令,生成符合用户需求的视频内容,同时也提高了模型的灵活性和可控性 [3-4]。

数据表示

OpenAI将视频和图像表示为Patch,类似于GPT中的token,这种统一的数据表示方式使得Sora能够在更广泛的视觉数据上进行训练,涵盖不同的持续时间、分辨率和纵横比,有助于模型学习到更丰富的视觉特征,提高生成视频的质量和多样性 [3-4]。

将视觉数据转化为Patch

原生规模训练

Sora采用“原生规模训练”,过往的图像和视频生成通常会将视频调整为标准大小,但这样会失去视频的原始长宽比和细节,而原生规模的训练方法可以带来更好的效果。Sora可以对各种尺寸和纵横比的视频进行采样,允许直接为不同尺寸的设备创建内容,并快速原型化较低分辨率的内容。与将视频裁剪为正方形的模型相比,Sora可以生成更完整、更美观的视频 [3]。

Sora可以直接生成不同尺寸的视频

模型研发

主要人员

Sora核心团队有15人,研究团队呈年轻化,主要负责人在2023年博士毕业,团队中还包含“00后”新生代力量以及艺术生。

姓名

简介

照片

Tim Brooks

蒂姆·布鲁克斯

OpenAI研究员,在加州大学伯克利分校读博士,Sora项目的共同领导者,参与过DALL-E 3相关研究。

曾在Google负责Pixel手机摄像头的机器学习工作,曾在NVIDIA负责视频生成模型研究 [3] [13-14]。

其摄影作品曾获国家地理、自然的最佳摄影和国家野生动物联合会的奖项,其还在纽约百老汇灯塔剧院演出过,曾获得Beatbox国际奖项 [43]。

Tim Brooks

William (Bill) Peebles

比尔·皮布尔斯

OpenAI研究员,加州大学伯克利分校博士,Sora项目的共同领导者 [24],致力于研究深度学习和人工智能。

曾在Facebook AI Research、Adobe Research和NVIDIA实习 [3] [15-16]。

William (Bill) Peebles

Connor Holmes

研究员,在科罗拉多矿业学院读计算机科学博士,Sora项目的系统领导者 [24],致力于解决在推理和训练深度学习任务时遇到的系统效率问题,在LLM、BERT风格编码器、循环神经网络(RNNs)和UNets等领域拥有经验 [43]。

在Microsoft担任研究员 [3] [17-18]。

Connor Holmes

Will DePue

OpenAI研究员,“00后”,密西根大学计算机系本科毕业,参与过DALL-E 3相关研究,常在社交媒体解答网友的疑问。

大四时曾创业市场咨询公司“DeepResearch” [19] [35]。

Will DePue

Yufei Guo

OpenAI研究员,曾参加GPT-4项目研究 [43]。

Li Jing

OpenAI研究员,麻省理工学院物理学博士,致力于研究多模态模型,参与过DALL-E 3相关研究。

曾在Facebook AI Research进行博士后研究 [3] [11-12],曾入选福布斯中国“30岁以下30人”榜单 [43]。

Li Jing

Ricky Wang

OpenAI研究员,毕业于加州大学伯克利分校。

曾在Meta和ins任职软件工程师及工程经理 [43]。

Ricky Wang

David Schnurr

OpenAI研究员,毕业于加州大学圣塔芭芭拉分校 [35]。

曾在Graphiq(后被亚马逊收购)与Uber工作,曾带领团队做出了Alexa语音助手的原型 [43]。

David Schnurr

Joe Taylor

OpenAI研究员,毕业于美国旧金山艺术大学,擅长用户界面设计网页设计艺术指导等多方面。

曾在StripePeriscopeSquare、 Blackboard等工作 [43]。

Eric Luhman

OpenAI研究员,致力于开发高效和领先的人工智能算法,主要研究领域在生成式建模和计算机视觉,特别是在扩散模型方面 [43]。

Aditya Ramesh

OpenAI研究员,DALL-E发明者和DALL-E 2联合开发者 [3] [20]。

Aditya Ramesh

Natalie Summers

曾从事新闻行业,在今日美国、WIRED等媒体有过任职,曾在苹果任职 [43]。

Natalie Summers

此外,Troy Luhman、Clarence Wing Yin Ng等人也参与了Sora相关研究。而Sora团队也正在持续扩张,David Schnurr发布招聘广告寻找有大型视频基础设施经验的人员。

研发轶事

  • 技术基础

Sora团队共同领导者William (Bill) Peebles和谢赛宁合著的论文《Scalable diffusion models with transformers》被认为是Sora背后的重要技术基础之一(但谢赛宁否认参与Sora研发团队,仅称其合著论文起到一些作用),不过这项研究在发表的时候并不顺利。Sora发布时,图灵奖获得者、Meta首席科学家Yann LeCun表示该研究论文因为“缺乏创新”,先被CVPR 2023拒绝,后来被ICCV 2023接收。

  • 研发时间

谢赛宁在公开回应时,称William (Bill) Peebles告诉其他们“每天基本不睡觉,高强度工作了一年”。

专业测试

安全性

OpenAI已将Sora交由Team Red(网络安全演习中扮演敌人或竞争对手角色的群体)测试Sora,评估潜在的危害或风险 [2]。此外,OpenAI正在开发帮助检测误导性信息的工具,比如检测分类器可以判断视频是何时由Sora生成的,其文本分类器可检查并拒绝违反使用政策的文本输入提示,例如极端暴力、性内容、仇恨图像、名人肖像等。

创意性

OpenAI邀请了专业创意人士测试Sora,用于反馈其在专业环境中的实用性,OpenAI计划根据这些反馈意见改进Sora,确保它能有效满足用户的需求。

社会影响

播报

编辑

价值意义

Sora对于需要制作视频的艺术家、电影制片人或学生来说,都带来了无限可能。该模型可以深度模拟真实物理世界,标志着人工智能在理解真实世界场景并与之互动的能力方面实现飞跃,也被认为是实现通用人工智能(AGI)的重要里程碑,通过不断深入研究和发展Sora等先进模型,有望在未来实现更加智能、高效和多样化的视频生成与处理技术。

产业格局

  • 估值上涨

Sora发布后,OpenAI的估值迅速上涨(有望超过800亿美元,2023年ChatGPT发布不久时其估值约为290亿美元),且文生视频大模型将会大幅推动人工智能基础设施的需求,英伟达、OpenAI、软银等巨头公司都被曝正在进行AI芯片的制造布局,英伟达也因大模型训练需要GPU算力支持而股价大涨。与此同时,受Sora发布的影响,美国图片供应商Shutterstock的股价大跌。

在中国,龙年开市第一天,Sora相关概念全线“爆发”,会畅通讯、当虹科技、万兴科技、易点天下、因赛集团、东方国信数码视讯华扬联众、国脉文化等股票均大幅上涨,多家公司回应称,将根据自身业务特点,在文生视频技术落地、Sora应用等方面寻找突破入口。

  • 生产变革

浙商证券预测,Sora及同类产品将参与到改变信息生产和分发两大环节的进程中,PGC(专业生产内容)将广泛采用AI工具辅助生产,UGC用户生成内容)将借助AI工具逐步替代PGC。此间,AI生成视频工具的商业化将提速 。

Sora可生成一段长达60秒的视频,远超市面同类AI产品视频生成时长,60秒的视频时长,已经超过抖音等短视频平台的平均视频时长,Sora的诞生也为以后短视频平台的内容生产提供了更大的可能性。

职业取代

截至2024年2月,已有一些视觉艺术家、设计师和电影制作人以及OpenAI员工获得了Sora访问权限,他们也已开始在社交平台不断晒出使用Sora生成的新作品,为人们展示AI生成视频的创意可能。许多网友称“不少人要丢工作了”,甚至有人开始“悼念”一整个素材行业。

各界评价

各界对Sora的评价/态度

类别

专家

评价

科技界

英伟达科学家

DrJimFan

Sora是一个数据驱动的物理引擎,它是对许多世界的模拟,无论是真实的还是幻想的,模拟器通过一些去噪和梯度数学来学习复杂的渲染、“直观”物理、长期推理和语义基础 [10]。

趣丸集团副总裁

庄明浩

Sora的面世影响的不仅是文生视频领域,下一步将是过去一年各家游戏物理引擎厂商们一直在尝试的自然语言改造生产流程,以及3D素材生产这个战场 [10]。

伊利诺伊大学厄巴纳-香槟分校

信息科学教授特德·安德伍德

没想到在接下来的两到三年内还会出现这种持续、连贯的视频生成水平 [22]。

普林斯顿大学计算机科学教授

Arvind Narayanan

根据OpenAI发布的视频,Sora似乎比任何其他视频生成工具都“先进得多”,这可能会导致“深度伪造”视频,人们更难识别出人工智能生成的视频 [22]。

360集团创始人、董事长

周鸿祎

Sora将缩短AGI(通用人工智能)实现时间,从10年缩短到1年。OpenAI训练该模型应该会以视频和摄像头捕捉的画面为主,人工智能通过观看大量视频将对世界有更深入的理解,这离AGI实现不远 [32]。

图灵奖得主、Meta首席AI科学家

杨立昆

根据提示词生成的大部分逼真视频并不表明这样的AI系统理解物理世界,生成视频的过程与基于世界模型的因果预测完全不同 [41]。

影视界

电影导演兼视觉效果专家

迈克尔·格雷西

很快,像Sora这样的人工智能工具将允许电影制作者仔细控制他们的输出,从头开始创建各种视频,当技术剥夺了其他人的创造力、工作、想法和执行力,却没有给予他们应有的荣誉和经济报酬时,不是一件好事情 [22]。

专业摄影师

孟凡

Sora视频帧率较高,说明计算能力比较强,且影片的宽容度更高,如调色、细节表现、高速镜头展现等。在直观感受上,Sora 模型产出的视频运镜自然,物体运动符合规律,镜头间逻辑一致性好,但是Sora视频的逻辑性会差一点 [41]。

中国电影文学学会副秘书长

杜红军

编剧、导演不必因Sora的出现而担心,它是帮助实现影视效果的好工具,能够激发更多人的内容创造力。人类负责创意,AI负责创造,未来的电影创作将是概念片先行,可能不是在写剧本,而是“写”影像 [48]。

社会界

中国社会科学院法学研究所

副研究员唐林垚

相较于其他视频类生成式AI,Sora在画面清晰度、内容流畅度、表意深度和精彩程度方面均有大幅提升,如果Sora的能力真如官方公布一样强大,且之后可以像ChatGPT一样便捷访问,那么Sora将给广告行业、影视行业和特效行业带来极大的冲击。 [37]

前记者、现斯坦福大学研究员

巴西勒·西蒙

在生成式人工智能方面有了可怕的飞跃,可以快速生成逼真的作品,这些工具可能会在选举中被滥用,公众将可能“不再知道该相信什么” [42]。

复旦大学教授、上海市数据科学重点实验室主任肖仰华

意料之中也意料之外。所谓意料之中,是因为ChatGPT诞生之后,业内专家都普遍预测大模型一定会从纯文本的大模型向多模态发展。所谓多模态指的是图文混合、和视频相结合的这类大模型。意料之外是指当你亲眼看到了Sora生成的视频具备如此的逼真度,冲击力还是很激烈的。它对模拟物理世界的逼真程度,达到了空前的水平,是之前人工智能技术从来没有做到过的 [55]。

主要竞品

Sora的部分竞品

公司

产品

技术路线

发布时间

英伟达

PYoCo

扩散模型

2023.05

Runway

Gen-2

扩散模型

2023.06

Pika Labs

Pika 1.0

扩散模型

2023.11

Meta

Emu Video

扩散模型

2023.11

Stability AI

Stable Video Diffusion

扩散模型

2023.11

谷歌

Video Poet

Transformer

2023.12

字节跳动

MagicVideo-V2

扩散模型

2024.01

相较于其他模型,Sora的优势主要是三方面:

第一:可以生成长达60秒钟的视频,包括多个角色、特定类型动作和主题背景;

第二:可以在单个生成的视频中创建多个镜头,模拟复杂的摄像机运镜,同时准确地保持角色和视觉风格;

第三:能够理解物体在现实世界中的物理规律和存在方式。

在各模型复现Sora“穿过下雪、樱花飞舞的东京街道”场景

社会争议

虚假信息

Sora的发布引发了关于虚假信息传播的争议。其强大的图像视频生成能力达到了以假乱真的程度,这不仅改变了人们“眼见为实”的传统观念,还可能带来一系列社会问题,如视频证据真实性和有效性的验证难题。在Sora问世前已有多起利用AI伪造视频进行诈骗的案例,显示了AI生成视频可能被滥用于非法目的的风险。Sora的普及可能会进一步降低制作高质量虚假视频的门槛,加剧虚假信息的传播。尽管互联网平台已有针对特定类型虚假信息的检测机制,但对于复杂难辨的信息仍需加强深度分析和及时阻断。随着AI生成内容的激增,网络上的合成内容将大量存在,这要求不仅在技术上持续改进,还需建立更全面的治理体系来有效应对虚假信息的挑战。

版权问题

Sora可能引发侵权争议。一方面,Sora生成的视频版权是否受到保护尚不明确,这可能导致使用这些视频的主体面临侵权索赔和版权保护追溯的风险。另一方面,Sora在训练过程中使用了相关素材,即使只是用这些素材进行训练,也可能存在潜在的侵权风险。

转自:Sora(OpenAI发布的人工智能文生视频大模型)_百度百科 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/364090
推荐阅读
相关标签
  

闽ICP备14008679号