当前位置:   article > 正文

上海WAIC大会现场“大闹天宫”:模型够猛,产品够酷,公司够强

上海waic大会现场“大闹天宫”:模型够猛,产品够酷,公司够强
衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

今年上海世界人工智能大会,谁最受关注?

展区现场,有个挤得水泄不通的互动——

像孙猴子一样在全世界大闹天宫的AI大模型,而且真的和《大闹天宫》联动!

只需一张真人正面图片,就能get天庭打工人寸照;在测出属于你的《大闹天宫》版MBTI的同时,玉帝老儿还会赏咱个天上的官儿当当,何不美哉?

773cb8952de856f79975b1d8b63ffec1.jpeg

这个对大多数人来说见了就挪不动腿的AI互动体验背后,背后还是一支越来越出圈的国产大模型团队

它不仅手握多模态能力,还在WAIC上亮出了手里最新的万亿MoE大模型。

597b854e8d7a2e707880c118276912d6.gif

平时低调,亮相不多,但总是一鸣惊人。

阶跃星辰,微软前全球副总裁,微软亚洲互联网工程院前首席科学家姜大昕创立,出道不早,但后发先至,目前已是公认的大模型第一梯队玩家,位列大模型创业“六小强”。

而且这一次WAIC期间,阶跃星辰展示的大模型能力,不只是和孙悟空携手闹天空那么简单。

万亿MoE+多模态大模型

阶跃目前推出的模型均为Step系列

新模型发布之前,小结一下过去的成员:今年3月,阶跃共发布3款模型,即Step-1千亿参数语言大模型、Step-1V千亿参数多模态大模型、Step-2万亿参数MoE语言大模型(预览版)。

在这次WAIC,Step家族增加3名新成员。

  • Step-2万亿参数语言大模型正式版

  • Step-1.5V千亿参数多模态大模型

  • Step-1X图像生成大模型

第一个是MoE结构的万亿参数大语言模型,后面二者则是多模态模型。

大语言模型:Step-2正式版

3月底的全球开发者先锋大会开幕式上,阶跃展示了万亿参数MoE语言大模型Step-2的预览版。

不是我说,阶跃是懂什么叫“浅尝辄止”的,只有预览版,让人心痒痒。

好在阶跃团队坚信Scaling Law,因此不断训练更大模型。

这次,Step-2正式版终于正式亮相。

Step-2拥有万亿参数,采用MoE架构,官方介绍,Step-2在数理逻辑、编程、中文知识、英文知识、指令跟随等方面体感全面逼近GPT-4。

背后有阶跃团队花了大心思的巧思在。

首先是创新算法架构。

一般而言,主流训练MoE模型有两种方式,不然就基于已有模型通过upcycle(向上复用)开始训练,不然就从头开始训练。

Upcycle方式所需算力相对更低、训练效率更高,但随随便便就到这种方式的天花板了。

比如基于拷贝复制得到的MoE模型,非常容易出现专家同质化严重的情况。

而选择从头开始训练MoE模型的话,能够探得更高的模型上限,但作为代价,训练难度也会增大。

2f3cf9e515deda9a6f44fbde4b5f0c9e.png

俗话说得好,勇敢阶跃,不怕困难(doge)。

在设计Step-2的MoE架构时,阶跃星辰迎难而上,完全自主研发,从头开始训练。

过程中,通过部分专家共享参数、异构化专家设计等创新MoE架构设计,Step-2这个混合专家模型中的每个专家都得到了充分训练。

故而,Step-2总参数量达到万亿级别,每次训练或推理所激活的参数量也超过了市面上的大部分Dense模型。

此外,Step-2的训练过程中,阶跃的系统团队突破了6D并行、极致显存管理、完全自动化运维等关键技术,支撑起了整个模型的高效训练。

多模态大模型:追求多模理解和生成的统一

姜大昕曾经坚定表示过,团队追求的是多模理解和生成的统一,“Step系列大模型将为多模理解和生成的统一奠定坚实基础。”

于是,在多模理解方面秀肌肉的Step-1.5V多模态大模型,以及在多模生成方面小有所成的Step-1X图像生成大模型,这次也对外发布。

Step-1.5V多模态大模型从Step-1V千亿参数多模态大模型迭代而来。

Step-1V大模型已经可以精准描述和理解图像中的文字、数据、图表等信息,并根据图像信息实现内容创作、逻辑推理、数据分析等多项任务。

而视频中的内容,它也可以轻松理解。

对比前作,Step-1.5V多模态大模型有明显跃升。

  • 感知能力:创新的图文混排训练方法,让Step-1.5V能理解复杂图表、流程图、准确感知物理空间复杂的几何位置,还能够处理高分辨率和极限长宽比的图像。

  • 推理能力:根据图像内容进行各类高级推理任务,如解答数学题、编写代码、创作诗歌等。

  • 视频理解能力:它不仅能够准确识别视频中的物体、人物和环境,还能够理解视频的整体氛围和人物情绪。

另一个新发布的Step-1X图像生成大模型,有600M、2B、8B三种参数量,分别适合对于速度敏感、日常主力(平衡效果和速度)、追求更高效更极致这三种场景。

通过全链路自研的DiT模型架构,Step-1X有更好的文本prompt和生成图片的语义对齐能力,以及指令跟随能力。

还有个不得不提的点:

Step-1X针对中国元素进行了深度优化,有关中国元素、文化的内容都能轻松拿下,生成的效果也更符合国人审美。

63d6e0b090165f65f9934f7a6f009893.png

对外亮相第一天起,阶跃星辰就摆明姿态,攀登AGI巅峰之路“万亿参数”和“多模融合”缺一不可。

这次一股脑儿推出的三款新模型,就是其在既定路线上向前探索的有力证明。

不可或缺的AI应用与生态布局

阶跃星辰不是WAIC上唯一推陈出新的大模型玩家。

在现场有一种强烈的感受,相比去年WAIC,展区的大模型厂商出现了更多创业公司的身影,尤为不同的是,无论是展商、论坛还是观众,对AI大模型应用的关注和讨论都占去不小篇幅。

类似“模应一体”“杀手级应用”“AI应用生态”这般的话题,频频被提起。

姜大昕此前有过一个生动的比喻:模型和产品的关系,就像灵魂和皮囊

当你具体到某个应用的时候一定要通用模型跟它深度绑定,应用才能做到极致。

反过来也是一样,我不觉得一个光做应用的公司,没有一个模型跟它深度绑定的话,它能做到极致。

这就凸显出阶跃星辰在模型与产品之间的伏线千里之妙。

以自家Step系列模型为基座,阶跃星辰的产品共有两类,自有产品和合作产品。

自有产品方面,有聊天类应用跃问,定位个人效率助手,web端和App端可用;AI开放世界平台冒泡鸭,提供海量智能体,主打一个休闲娱乐。

两款toC产品,均已全面开放使用。

这里重点介绍一下跃问,它拥有联网搜索、代码分析增强(POT)等能力,能够提供信息查询、语言学习、创意写作、图文解读等服务。

和其它家聊天类应用相比,它有一个最大的优势:多模态内容理解能力。

它能够帮助用户识别真实世界的万事万物:

ee0670c010e6ca8a29d28c755929ba9e.png

能够理解和分析复杂的金融图表:

dd255389e5cf96e1c8bb4d3f1515a96a.jpeg

还能理解热梗图片中的深意:

10fa21c1a08a464a5ff4778cd8e0bf52.png

甚至能够根据欧洲杯赛程表,梳理生成“一图读懂”:

e7609bf1ac90c65c8af51843544dd7b0.jpeg

合作产品方面,最亮眼的就是此次吸粉无数的《大闹天宫》AI互动体验

b339c8b2c01091a2332fb79d53272b83.jpeg

动画电影《大闹天宫》制作于1961年,是上美影的灵魂代表作,60年来,更成为几代人钟爱的回忆。

1a0123fc1428ba92f713a41ca82c84d8.png

半个多世纪以来,基于这个国民IP的创新层出不穷,还能玩出什么新花样?

围绕《大闹天宫》,阶跃团队与上影集团利用AIGC和大模型技术,联合推出了AI互动体验产品,让大家能与电影情境深度融合。

玩法也很简单:

上传一张个人照片,然后开始走Step系列大模型生成的剧情。

07855a10239e3174cf2262161453ae6c.png

模型算法会识别照片特征,提取后结合《大闹天宫》的画风和角色,完成风格迁徙,生成新的肖像

b57a8bbd5efea382aacd01be164e27d7.png

剧情发展过程中,用户能选择,也能和系统对话交谈。

170b7d0d92c3a540a77174f507a41d27.png

等等,这还没完!

根据刚才做出的选择和回答,大模型还会进一步分析用户的MBTI人格,最后得出结论:

如果你在天庭当打工人,最适合什么差事?

(没办法咯,孙悟空大闹天宫前也老老实实做了段时间弼马温)

acaf532a12d9470c7f381315b69de324.png

量子位测出来,是enfp的赤脚大仙

都说光脚的不怕穿鞋的,本大仙今天就原地罢工吧(不是)。

据说只有1%的人能测出来齐天大圣,不是我,我慕了。

没在现场但想玩一把的朋友们,可点击文末阅读原文,也欢迎大家把测出来的MBTI和神仙职位在评论区分享~

48b8b2efe96ee75f2b9ad7a39c93e216.png

上述产品不只是阶跃星辰利用自家大模型能力对外输出的全部。

据了解,在内容、金融、网络文学、知识服务、影视等领域,阶跃星辰都和行业头部展开合作,多维探索面向C端用户的创新应用。

国产大模型创业第一梯队新格局

对于所有的大模型玩家来说,从ChatGPT诞世的那一天起,全球范围内的竞争就愈发激烈,再也没有停歇过。

尤其是WAIC现场,这样的信号传递得非常明显。

谷歌、Meta、BAT、华为、讯飞、深度求索、AI四小龙……老牌AI布局者,在AI 2.0时代的实力依然不可小觑。

背后原因是AI 2.0实质上是随着研究深入,对判别式AI与生成式AI的人为划分,而深度学习的核心三驾马车,即对算法、算力、数据的掌握和运用,依然是重中之重。

979b1d15a5bceeb0b012a4bb72d19c8a.gif

但古今中外,一个时代有一个时代的公司,每个时代都会有代表性的公司出现

AI 2.0时代的大模型初创公司,确实已经出现了对技术和产业的发展至关重要的锐力。

WAIC展区,就有这样的玩家出现,而且经过第一阶段的竞速和洗牌,大模型创业的上半场基本已经结束。

在上半场中,能够脱颖而出的创业玩家,首先通过自研基础大模型,证明了自己的技术研发实力;其次还通过产品和应用,开启了商业模式试水,构建起了技术-产品-数据-商用的初步飞轮;最后,还获得了创投和资本市场的认证,完成了独角兽级别的巨额融资,有粮草和底气可以开启下一阶段比拼。

实际上,上半场也是创业玩家的分水岭,能够在此时此刻把公司推至独角兽级别,是角逐下半场的门票体现。

也就是说,没有门票,基本就告别下半场了,更别说AGI了。

因为随着第一阶段竞速,市场的作用开始展现,不论是技术人才、研发资源、创投资本,都在急剧收敛,形成马太效应——留在桌上的玩家会获得更多的资源挑战更大的目标,下了桌的玩家,原先有的也要被拿回。

互联网时代、移动互联网时代、AI1.0时代的轨迹,再次重复上演。

而现在,在AI2.0上半场拿到门票的创业玩家,格局初现,六小强锐不可当——

智谱华章、月之暗面、MiniMax、零一万物、百川智能、阶跃星辰……越来越多被放在一起谈论。

而阶跃星辰,是其中后发的一个,但正在展现出谋定而后动的后发优势。

而且它是为数不多,在国内同时拥有多模态大模型能力和万亿MoE大模型的玩家,这代表了面向下半场的某种潜在竞争力和加速度来源。

—  —

点这里

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/码创造者/article/detail/932311
推荐阅读
相关标签