sora是什么?sora openai介绍

作者：2023面试高手 | 2024-02-21 17:21:00

踩

常规的计算机CG没有几个月是做不出来的，Pika、Runway为什么做不出这样的效果？这两天网上介绍所有的视频已经非常多了，我更喜欢琢磨背后的东西，大家都在说sora好，到底为什么好，它是怎么做的呢？

我特别对三个场景印象深刻：一群金毛小狗在雪地里打滚，其真实感让人惊叹；一个咖啡杯中的海盗船战斗场景，展现了惊人的特效；以及无人机穿越城市古迹的画面，其3D效果和一致性维护得非常好。这些效果展现了目前技术的极限，以及为何传统的CG方法无法轻易复制这些效果的原因。
在这里插入图片描述

Pika和Runway，那为什么做不出这样的效果？
我理解Pika和Runway实际上还是基于这种图形图像本身的操作来进行的生成，在一个画面上选定一两个目标，一两个对象。让这一、两个对象要么保持不动，背景在动，要么背景不动，这一两个对象在动，就形成一种比较简单的计算机动画的效果，它是肯定做不到刚才的三个画面的能力。

（PS：目前，OpenAI 尚未公开开放 Sora 的灰度测试。然而，借鉴之前 DALL·E 图像模型的案例，我们可以预见首先会向 ChatGPT Plus 的付费用户提供这一服务。对于有意体验此服务的用户，如果您尚未注册或希望了解如何升级至 GPT Plus，可以参考下面的教程: 升级 ChatGPT Plus 的教程

在CG领域，创建真实感强的画面，比如毛茸茸的动物或是动态的水面，需要极其复杂的建模和粒子效果模拟。这不仅涉及到每一根毛发的建模，还包括每一个水滴的物理建模，以及如何表现出毛发随风飘动的感觉和雪花的质感。这样的工作量是巨大的，使用常规的电影工业特效手段，可能需要几个月的时间才能完成。

如果用电影特效来表示咖啡杯里的那个波动，这个就需要给粒子特效来模拟多少个水分子，把每个水分子看成是一个粒子，然后利用水的这种物理方程来模拟流体的特质，一帧帧的把它渲染出来。阿凡达为了做水的特效，据说花了好几年的时间才完成了大量的海浪，水波纹这些特效镜头。

那么像无人机飞跃一个城市，所有飞跃的地方，都要需要做真实的3D建模，3D的贴图和3D的渲染，在镜头飞跃的每一个观察点上，都要对这个3D的画面做若干次的渲染。对一个城市的3D建模的工作量特别大，所谓叫数字孪生还是非常昂贵的一个技术。

但是到了sora这里，这些东西都变得非常的简单，只要给一堆文字的提示要求，它就能给你非常逼真的描绘出来。

sora到底做3D建模没有？
我觉得答案应该是没有，因为sora如果也只是3D建模在进行渲染，和传统的电影工业走一样的路，那就它就不具备颠覆性和革命性了。

sora怎么做到的呢？
第一点
sora应该还是模拟了我们人类去观察世界、描绘世界和表现世界的这种方法，比如说如果要我们人类一个有经验的画师用笔画出来看才3个场景，我们人类在大脑里并不需要3D建模。

因为人类已经对世界有了一个基本的认知，我们知道透视的原理，我们知道随着这个镜头的移动，每个物体的视觉画面会发生改变，我们知道如何去画毛茸茸的毛发，如何去画这个雪，当狗转身的时候，我们知道整个画面会有什么样的变化，我们不需要懂粒子特效，不需要3D建模，不需要懂物理定律，我们靠着对世界的观察，我们也能画出惊涛骇岸的这种海浪的感觉。

sora应该通过大量的训练，掌握了人类这种观察世界、描绘世界、表现世界的这种能力，所以就使得他通过表面看的是2D画面的这种生成，完全理解了这个3D世界的物理规律。

第二点
我觉得sora在学习的过程中，不光是用了很多视频电影的内容来作为训练的输入，当你输入一些画面给sora模型做训练的过程中，你不仅要解读出画面有什么元素，你还要解读出来这里面反映的一些物理定律。

openai在对他的论文。你提到一个叫recaptioning技术，很多人把它翻译错了，翻译成叫字幕技术，像recaptioning的意思是说对每一帧画面能够把它变成用文字来描述，这点也非常符合人人类认知世界的方法。

比如说一个见过大海的人，向一个没有见过大海的人，用语言来描述这个海浪的效果，让他来进行学习，进行想象。所以这一点说明openai的多模态技术已经达到一个新的空间，我估计Google的Gemini看来短期内是很难赶上了。

第三点
大胆的猜测一下，openai应该是自己产生了很多3D的内容，也不排除他用现在的游戏引擎做了很多这种实时3D模型的渲染，利用这种3D模型来把更多的物理知识训练给sora。

为什么人类对AIGI的突破可能就剩下最后一步了？
sora表面上看起来是一个刮胡刀，实际上它是一个吹风机，或者它看起来像一个吹风机，它实际上是个刮胡刀，它表面上看来是一个记录文字生成视频AIGC的工具。

它反映了AI对我们这个世界的理解，已经从文字进到图像，已经从图像进成视频，对这个世界3D模型的理解，对物理定律的理解，还有些人在吹毛求疵，我看到一个sora翻车的视频，比如一个杯子没有碎掉，水就流出来了，还比如说从土里挖出一个凳子，那个凳子没有表现出重力的感觉。

s我恰恰觉得有这些问题呢，非常正常，就像大模型会产生幻觉一样，在梦中不也是会让很多物理定律失效吗？

sora所谓的失效，我觉得有两种可能，一种是这种模型先天具备的，这种也有幻觉的问题，会产生一些魔幻的效果，还有一种，是物理知识训练的不够，所以我们面对一个新的东西，不要老是盯着它的弱点，这些弱点都是可以被改进的。

原文转载：https://haogonju.com/2049.html

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/2023面试高手/article/detail/125330