当前位置:   article > 正文

Sora引发世界模型之争,生成式AI会如何发展?

Sora引发世界模型之争,生成式AI会如何发展?

比Sora爆火更精彩的,是这几天的世界模型“论剑”。

Sora横空出世,Open AI称其是“world simulator”(世界模型)。这让致力世界模型研究的图灵巨头LeCun坐不住了,怒斥Sora不懂物理世界,自家研究的V-JEPA才更贴近世界模型路线。紧接着,谷歌加入混战,重磅发布基础世界模型——Genie,号称人类迈向AGI的重要一步……

ecc7f80981f1559ee4f1d5de877724ea.png

一时间,Sora是不是世界模型、谁能代表世界模型等讨论甚嚣尘上,也让世界模型这一概念迅速进入大众视野。

01

超越数据的决策力是关键

公认的,世界模型是目前技术流派中难度最高的一种,是通往AGI的最优解。

它最早也最常出现在强化学习和机器人领域,在AI领域并没有严格的定义或者证明,而是类比了认知科学中人脑的mental model(心理模型),即让机器像人类一样感知、认知真实世界,并采取动作。

0e843553cad18e3c9d183a2f13a53dde.png

▲论文中的世界模型示意图

要注意的是,这里是全方位的感知,包括对事物的观察、描述、记忆和分类,对事物间关系、客观规律等理解和预测等等。有了这些,才能进行下一步的推理和决策。

不严谨地说,这个过程可以笼统归为三大关键功能:

状态记忆

实时记录和更新环境状态信息;

预测未来

依据当时的状态信息能够做出预期动作、结果;

推理决策

即便没有经验数据支撑,也能理解复杂关系、逻辑,进行独立决策。

很明显,记忆和预测对于当前的技术而言,不难逾越。那么,世界模型的核心作用,就在于推理决策上。这不能单纯依靠数据喂养达到,是要形成一种类似人类神经系统、一种与生俱来的反应能力。

换句话说,世界模型是试图超越数据、在机器中复制这一能力,但向机器传授“常识”“本能”谈何容易,至少目前的技术无法企及。

02

大模型路径之争

了解完世界模型的雏形,我们再回到大众热议的问题:Sora是不是世界模型?谁能代表世界模型?

本质上,Sora还局限在对世界的观测和预测。

它既不是物理引擎,也不是世界模型,而是通过学习海量真实世界画面、像素和物理规律等,呈现新的视觉内容。这种模式,更符合“感知—匹配—认知—预测—输出”这一路径。

而这种模式的弊端显而易见,比如模型的准确性、泛化能力问题。这一点,从Sora生成的违反物理规律的“翻车”视频,也得到了验证,即现实世界的复杂度和多样性,很容易超过模型通过有限数据学习到的能力。

604f6d86dc3afd26dc313ea8cc6ed85d.gif

▲跑步方向相反

那相比Sora,V-JEPA和Genie是否更能代表世界模型?

V-JEPA是非生成式预测模型、Genie是可交互生成式模型,两者在结构上与Sora存在本质差别,但同样距离世界模型相差甚远,现在讨论谁更贴近世界模型路线,意义不大。

况且,也没人能断言世界模型就会是大模型的发展终点。

说到底,从0到1的路上,大家都是尝试,没有谁更权威的说法,走到最后路通了才有指点江山的资本。现阶段,技术不到位,拿世界模型理论贴金毫无必要,无非是商业利益不同,想利用舆论打个口水战,懂得都懂。

03

大模型的几大走向

不能否认的是,Sora的爆火也好,世界模型之争也好,确实为AI行业带来了更大的想象空间和推动力。

有IDC分析师预测,未来5年,生成式AI生成的文本类文件、图像类文件、视频类文件、软件代码类文件数量将会越来越平均。其中,与图像文件相关的数据量可能是文本文件的 100倍,视频文件是图像文件的10倍。

而这一切势必得益于大模型的深度扩展和商业化落地。也正是基于此,我们试着分析大模型的几个可能走向:

多模态:Sora对于行业来讲已经是重大突破,其后跟风的企业可以预见,多模态模型的交叉融合将成为一个重要趋势,且有很大几率入驻短视频、广告、影视等领域,以丰富的视觉内容、高效的生产体验融入应用之中。

基于世界模型的推理:从各大巨头对世界模型的追捧程度来看,大模型从感知、记忆、预测等走向推理决策,短期内热度不减。在这里,最大的门槛是技术,但复杂程度低、简单的逻辑推理和决策,也不是没有可能性。

时空信息整合:有了Sora的先例,一部分大模型将通过学习视频内容来理解现实世界的动态变化、规律等。这其中,要更加注重时空信息的整合和处理,以实现更加真实和连贯的视觉效果。

垂直、定制等分化加剧:通用基础大模型不具备广泛的适用性,商用大模型“变现”的最终落脚点还得是垂直行业、应用场景、用户需求。诸多芯片厂商,如英伟达、英特尔和安谋等,也都在布局终端AI芯片,支持大模型渗透消费电子市场。

与此同时,大模型的可解释性、透明度、数据安全与隐私保护等等,也会随着应用的普及成为重要的研究主题。特别在高敏感领域,如医疗健康、金融服务等,这些问题更是尤为重要,是用户和监管机构理解和信任大模型的关键。

总的来说,从大模型的发展可以窥见,在未来数十年内,AI研究没有最卷,只有更卷。

如今国际巨头们拿着新进展纷纷“圈地”,眼看着火药味起来了,国内赛道上的大厂们什么时候亮个相呢?

相关阅读

要想生成式AI落地,先搞定数据泄露危机

2024生成式AI泡沫破裂,警惕热潮后资本崩盘

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/214685?site
推荐阅读
相关标签
  

闽ICP备14008679号