OpenAI发布Sora模型，出道即碾压主流AI视频模型

作者：花生_TL007 | 2024-02-22 23:51:31

踩

近日，OpenAI发布首个文生视频模型Sora，效果震撼。Sora模型可以通过文本描述生成60秒长视频，还可以对视频色彩风格等要素精确理解，创造出人物表情丰富、情感生动的视频内容。Sora三大亮点突出，实现AIGC领域的里程碑式进展。首先是60秒长视频，Sora可以保持视频主体与背景的高度流畅性与稳定性。其次是单视频多角度镜头，Sora在一个视频内实现多角度镜头，分镜切换符合逻辑且十分流畅。再是理解真实世界的能力，Sora对于光影反射、运动方式、镜头移动等细节处理得十分优秀，极大地提升了真实感。Sora模型推动AI多模态领域飞跃式发展，AI创作等相关领域将迎来深度变革，AI赋能范围进一步扩大，多模态相关的训练及推理应用也将进一步提升对算力基础设施的相关需求。
1

在Sora推出之前，已经出现了一些用户认可度较高的AI生成视频模型。为什么Sora能引发如此大的轰动？多家外媒对三款热门文生视频模型Runway、Pika Labs和Stable Video进行了分析，并比较了Sora和它们之间的技术差别。

时长：60秒 vs 16秒

在Sora横空出世之前，Runway一直被视为AI生成视频的默认选择，尤其是自去年11月推出第二代模型以来，Runway还被称为“AI视频界的MidJourney”。第二代模型Gen-2不仅解决了第一代AI生成视频中每帧之间连贯性过低的问题，在从图像生成视频的过程中也能给出很好的结果。

而在Sora发布后，Runway的CEO克里斯托瓦尔·巴伦苏埃拉（Cristóbal Valenzuela）便在X平台上发布了两个字：“Game On（比赛开始了）。”

Sora最震撼的技术突破之一在于其输出的视频时长。Runway能够生成4秒长的视频，用户可以将其最多延长至16秒，是AI生成视频在2023年所能达到的最长时长纪录。Stable Video也提供4秒的视频，Pika则提供3秒的视频。在这一方面，Sora以1分钟的时长向竞争对手们提出了挑战。

镜头语言：运动镜头 vs 静止视角

Stable Video和前两款产品一样，都没能脱离现有文生视频的一般模式，即输出单一的、通常是静止视角的短视频片段。相比之下，Sora的宣传视频包括变换摄像机角度、电影式剪辑和场景变换，也就是人们常说的镜头语言的使用。

此外，许多分析都指出，Sora带有世界模型的特质。所谓世界模型便是对真实的物理世界进行建模，让机器能够像人类一样，对世界产生一个全面而准确的认知。这一特性使得AI视频生成更流畅、更符合逻辑，降低了视频模型的训练成本，提升了训练效率。

和Runway一样，Stability AI的CEO埃马德·莫斯塔克（Emad Mostaque）也在X平台上感慨“奥特曼（OpenAI的创始人兼CEO）真是一个魔术师”，并称Sora可以被视为AI视频的GPT3，将在未来几年内得到扩展、细化、调整和优化。

劣势：有无免费选项，能否开源

和前辈们相比，Sora也存在两个可能令其不会被用户青睐的问题：有无免费选项，以及能否开源。

作为AI视频领域的新晋竞争者，Pika Labs于去年11月推出了生成式AI视频工具Pika 1.0，也在推出时凭借精美的演示视频引起了轰动。Pika已于去年12月公开，与Runway具备相似的质量，并在短时间内建立了一个非常活跃的用户社区。

最重要的是，和其他竞争对手相比，Pika提供了更具吸引力的免费使用选项。Runway只会给用户125个不可续的免费积分，而Pika每天都会给用户发放30个积分，这使得它在短时间内拥有了一个庞大且活跃的用户社群。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/花生_TL007/article/detail/132115