当前位置:   article > 正文

AI大模型技术路线之争:你可以信仰多模态,也可以无视多模态

AI大模型技术路线之争:你可以信仰多模态,也可以无视多模态

c9a521930438f7cb485be7543a18483a.png

亲爱的数据:谭婧

(一)观点争锋

大模型的故事里,或许会有句话:

技术路线错误意味着死亡,

在错误的道路上,

跑越快,死越快

如果你不信,我们一起算笔账,

头部大模型公司,每月算力支出是多少?

如果没有数据中心的话,

每月千万人民币级别算力支出

不能说得再细了。

竞争到了这个阶段,犯大错意味着什么?

选择技术路线,就是选择生或死。

这些性命攸关的系统性选择,不止做一次,

选不选,什么时候选,选哪种。

反正OpenAI(OAI)已给出了自己的答案。

开始的开始,是由大语言模型拉开大幕,GPT-3.5属于超大规模语言模型。

而随后的GPT-4时刻,

OAI在官网技术博客上透露:

“GPT-4的一个重大提升是开始涉及多模态”。

并且,他们释放了图文部分的“下集预告”。

时过半年,GPT-4Vision它来了,

此前预告,顺手实现。

GPT-4的情况基本可以确定,

而GPT-4Vision没有放出模型结构和论文,

不能武断,但至少可以保守地说做了图和文。

看看名字,都带着Vision。

回顾一笔,多模态大模型在国内从来都不是“稀有物种”。

早在GPT-3.5发布之前,国内早期大模型探索者也是有人选纯语言,有人选多模态,相当于两条技术路线都占了。

选择纯语言技术路线的是华为诺亚方舟实验室的盘古,选择多模态技术路线的是阿里巴巴达摩院和清华唐杰教授团队,紫东太初团队

只是,早期效果都不好,谁也别笑话谁。

但可以说,中国团队征服多模态的雄心壮志自始有之,无奈效果一般。

回到当下,虽然全球范围语言大模型占多数,

开源社区更是繁茂,

但多模态仍不是“稀有物种”。

例如,国外大团队的作品,GPT-4、Gemini 1.5等;

国外小团队的作品,Fuyu系列,LLaVA系列。

(《2023年终盘点:图文大模型编年简史》-可点击阅读

Claude 3更是明确说明和早期版本不同,

是多模态,能够理解文本和照片输入。

就好像某位诺贝尔文学奖获得者告诉记者:

“我的第三部作品,与之前作品截然不同。”

bf9a266873d80aa24050add8d80dbee4.png

本质上讲,多模态大模型的训练比大语言模型更消耗GPU

语言大模型的钱花得像流水,

多模态的钱则花得像瀑布。

虽然更费GPU,但问题的关键始终不是GPU够不够多。

而是两条技术路线路泾渭分明。

要么信仰多模态,要么无视多模态。

115abb9b1917ea37ad597bc3d1b591d4.png

规模定理,依然奏效。

那么多模态大模型到底是不是一条通向通用人工智能的正确道路?

正方观点:必须是。

可以同时处理来自文本、图像、音频等多个模态的信息,有巨大潜力。市面上也有多位专家实名表态。即使不做多种模态,图文也被很多团队所重视。

反方观点:不是。

反方观点,有悲观,有激烈,有温和。

持悲观态度者认为:

“这是一个没有前途的方向。”

甚至将谷歌没做好的地方归因于此:

“为什么谷歌Gemini的效果一直没有超过OAI,就是因为错误地选择了原生多模态技术路线。”

还有更扎心观点,并且提供了一部分证据:

“OAI肯定已经对视觉信息做了大量的工作,但用处并不大。”

该观点的论据来自GPT-4官网博客中,

在增添了视觉数据之后,GPT-4有视觉信息派比起GPT-4(no vison)没有视觉信息派相比,模拟考试的成绩提高得并不多。

甚至推出一种结论:多模态大模型这种技术路线无法有效提升大模型“智慧”指数?

bb0492cc54819aadcf56a87528e58ab5.png

反方又打了个比方

(我怀疑在讽刺 ,但我没有证据):

你给猴子脖子上挂一个索尼最新型号的单反相机(比喻增加了视觉这种模态),你觉得峨眉山的猴子对世界的理解能力会增加吗?

大语言模型无法利用好视觉模态中的信息,就好比,猴子无法理解复杂专业的相机拍摄的照片所提供的信息。

这个观点认为,姑且不讨论猴子会不会用单反拍照,相机捕捉的图像于猴子而言,只是一堆毫无意义的色彩和形状。

5e94bc6b0fd2fac580005c226ccadcb0.png

反方温和派的观点则认为,

如果语言模型本身存在不足,那么多模态对齐的效果也不会好。

将语言模型比厨师,而多模态对齐则是一道复杂菜肴。

厨师只有掌握了基本功,才能烹饪大席面。

同样,语言模型也只有在自身能力得到足够提升之后,

才能更好地对齐多模态。

现在语言模型动不动就幻觉,

在其没有做好之前,做原生多模态还为时尚早。

不得不承认,至今为止,

多模态模型确实面临很多困难,

包括还没能将多类信息整合为更深刻的理解,

但工作仍在继续。

现在给结论为时尚早。

是时候把争论带到另一个层面了:

Talk is cheap,show me the detail.

(二)技术细节与原理

对于多模态大模型技术路线来说,

今天的它,不是昨天的它。

似乎没过多久,多模态就经历了一次技术演进。  

原有结构有所简化,

比如,图像编码器消失了,适配器也不见踪影。

模型结构的变化,带动了训练阶段的变化。

“仅有解码器的Transformer”这个模块成为核心。

给图像用,也给文字用,类型不同,也不用做区分。

1

怎么就发展出了原生多模态?

从图文检索开始,早期的主要方法就是把提取出来的特征映射到同一个空间,目的是对齐后再做检索。

早期多模态大模型把这套方法“生搬硬套”过来用,

多少会有点“水土不服”。

而且,更重要的是这种提取信息的方式,会造成损耗。

我们在特征提取环节,损失了信息量。

特征提取通常会丢失一些原始信息,例如数据之间的局部关系和全局结构。

而向量表示是一种有效地保留数据信息的文本或图像表示方法。特征提取虽然可以简化数据,但通常会丢失一些原始信息

信息越保真,模型能学习到的信息越多。向量表示可以保留数据的原始信息更多。而且,向量表示的维数越高,可以保留的信息就越多。

老方法难尽如人意,对此,需专门设计出一套新“技术”。

2

什么样的新技术?

思想是想尽办法把不同的东西统一处理”。

这个技术有两个拥趸:

1. Fuyu系列模型

Fuyu是“Transformer八子”中的Ashish Vaswani所在的创业公司Adept发布的模型所用的名称。Fuyu-8B模型,参数规模80亿,还没超百亿。

“身形轻巧”却有强大的图像理解能力,能理解照片、图表、PDF、界面UI等,且处理速度很快。

2. 谷歌Gemini模型

第二个Gemini,线索藏在《Gemini 技术报告》的模型架构图里,

也是“仅有解码器的 Transformer 结构” 。

这幅图中Gemini大致有两个主要模块:

第一,融合层,负责理解和融合。

第二,图和文的解码器,负责生成,最终输出,文本或者图像。

2f5438e6da28506e438fa2e685d4a86d.png

做法是,先在预先处理环节,将图像分成小块(Patch)

再将每个小块转成向量(数字)表示。

转化成向量表示的方法有很多,线性投影是其中一种。

这种类似拼图的图片小块,相当于视觉词元。

处理视觉词元的这个过程的工作原理和文本处理中的文本词元类似。

既然能“统一处理”,那就是一个“统一装置”,能投进去图和文的数据。

其他模态可以此类推。

这个处理过程,或者说这个“装置”,就是Tokenizer

它可是个好东西,我想叫它“化功大法”。

因为可理解为一种化解信息的神功,能将各种类型的数据

(文本,图像或音视频)转化为统一的格式,转换为计算机可以理解的。

c131104e8ada74f2fad57e95e62e2e9b.jpeg

这里需要多聊2块5毛钱反方观点

3

“化功大法”,有哪些难以攻克之处?

向量信息并不是一一对应的,可能会一对多,

而有监督学习解决不好一对多。

模型傻傻分不清楚,

这样情况就糟糕了。

正方观点认为,有了“统一装置”,

数据有了统一的“尺度”。

迈入了原生多模态的门槛。

接下来,通过“统一装置”后,

图文音等各种类型的数据在向量表示这个阶段,

形成了新的词元(Token)序列。

再往下,输入给核心模型(Transformer decoder)。

输入送给之后,相当于这么多不同模态的数据用一个模型把它们全部大锅烩了。

而不是以前分而治之。

这是种全新的核心组件,

甚至说是“替代方案”,也毫不为过。

甚至有正方观点说,该结构已经趋于收敛,也就是说差不多是成熟结构。

讲完技术细节,文章也步入尾声了,

2024年注定是一个声音在热浪中挣扎的年份,

多模态是一个肯定要做的方向,

信仰者和无视者都有意义,

无论是谁都在摸索中前进。

(完)

d2f903a4701b291d0307488a7b1030bc.jpeg

ba882fac43e03fc96c6d1ba96164be05.jpeg

《我看见了风暴:人工智能基建革命》,

作者:谭婧

ef8d63304754bf6c638b1cc5c9661e87.jpeg

更多阅读

长文系列

1. 2023年终盘点:图文大模型编年简史

2. 跳槽去搞国产大模型,收入能涨多少?

3. 大模型下一场战事,为什么是AI Agent?

4. 假如你家大模型还是个二傻子,就不用像llya那样操心AI安全

5. 指令数据:训练大模型的“隐形助力”

6. 对话百度孙珂:想玩好AI Agent,大模型的“外挂”生意怎么做?

7. 再造一个英伟达?黄仁勋如何看待生物学与AI大模型的未来?

8. 科大讯飞刘聪:假如对大模型算法没把握,错一个东西,三个月就过去了

漫画系列

1. 搞掂大模型,如何榨干每一滴算力?

2. 大模型用于腾讯广告,难在哪?

3. 卷大模型开源,正确姿势是什么?

4. 腾讯混元大模型“干”广告创意:那我走,都让AI来?

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/401188
推荐阅读
相关标签
  

闽ICP备14008679号