赞
踩
肝了将近三天的时间,终于完成了这篇“巨作”,也算圆了之前咱们一位终身VIP用户提出的的需求,主打就是宠用户。
关于这篇总结,我可以毫不夸张的说,绝对算得上市面第一篇把所有大模型说明白的内容。
我凭什么敢这么说?
是因为我是真的花时间去搜了,一篇能看都没有!
最有意思的是,这排名第一的热度总结是还是一位宠物博主为智谱写的软广。
好了,废话不多说,是骡子是马得拉出来溜溜才知道。
接下来正式进入正文。
进入正文
国内国外各大模型都有什么区别?
咱们先来看看国内的。
目前国内较为知名的AI大模型主要有10家,如图:
阶跃星辰 |
零一万物 |
月之暗面 |
清华智谱 |
百川智能 |
360智脑 |
通义干问 |
讯飞星火 |
文心一言 |
腾讯混元 |
为了方便大伙对国内大模型的优势能有个直观上的了解,我把它们汇总成了表格,如下:
在这图中有细心的伙伴会发现咱们的IMYAI竟然也在其中。
没错,为了向伙伴们提供更加便捷和高效的模型工具,IMYAI依托GPT系列技术开发了一款专注于联网搜索的模型。
该模型搭载了联网插件,能够实时获取网络信息,唯独一点,它不具备上下文记忆功能。
接下来介绍一下国外的主流语言模型,除了众所周知的GPT系列和 Claude系列之外,还有几款不错的AI模型,如下:
GPT系列 |
Claude系列 |
Google系列 |
Llama系列 |
看到这里不熟悉的伙伴估计会好奇,网站内code-llama 、llama-2和llama-3这些模型是干嘛用的,擅长什么?
还是那句话,答案都在下面图中。
以上就是国内外主流的AI大模型一览表,接下来我们一起看看各大语言模型的测试效果怎样。
各大语言模型测试
去年GPT4刚出来的时候,国内各个模型为了增加曝光度也开始进行不同程度的炒作。
为了鉴别真伪,探究周树人与鲁迅之间的关系已成为评估大型语言模型智慧水平的经典测试。
用户可通过模型对这一问题的回答准确性,来初步判断其智能水平的高低。
下面,借用我们IMYAI平台为基础一起看看各大模型针对这个问题的处理能力。
- ChatGPT系列 -
GPT3.5所有模型
GPT4.0所有模型
- Claude-3系列系列 -
Claude-3-haiku
Claude-3-sonnet
Claude-3-opus
- 谷歌系列 -
谷歌Google-palm
谷歌Gemini-pro
- 清华智谱系列 -
清华智谱-glm-3
清华智谱-glm-4
- 百度文心系列 -
百度文心-ERNIE-Bot
百度文心-ERNIE-Bot-turbo
百度文心-ERNIE-Bot-4
- 阿里通义千问系列 -
阿里通义千问-qwen-turbo
阿里通义千问-qwen-plus
阿里通义千问-qwen-max
- 其他模型系列 -
阶跃星辰-step-1
零一万物-yi-34b-chat-0205
百川智能-Baichuan2-Turbo
科大讯飞星火-SparkDesk-v3.5
360智脑-360GPT_S2_V9
腾讯混元-hunyuan
mistral-medium
llama-2-70b-分析预测
code-llama-34b-编程专用
由此可见,大部分的模型对于这个问题处理分析能力还是不错的,尤其是国产大模型,正确率达到100%。
不过针对于国外部分模型来说这个问题还是存在一定的限制性。(GPT3.5、Claude-3-haiku、sonnet、mistral-medium、code-llama-34b-编程专用、llama-2-70b-分析预测)
为了准确评估各大模型的真实能力,这里我将采用非常规的问题来增加问题的难度。
例如我们将【周树人】偷换概念改成【鲁树人】,然后将【鲁迅和鲁树人是两个人】的概念进行固定增强,让Ai真的相信【鲁树人】这样一个人物是真实存在的,看看Ai模型这次如何应对。
(注:第一轮淘汰的Ai模型将不会参与本次测评,我们继续PK胜出的模型,例如GPT4.0、opus和国产所有大模型。)
GPT4
GPT4很聪明,最开始没有踩中我的圈套,但是到后面还是被绕晕了,居然说:实际上,鲁迅和“鲁树人”是同一个人,鲁树人即周树人,这是鲁迅的本名。
很明显,GPT4已经产生了幻觉,明显对自己的判断还是不够自信。
Claude-3-opus
Claude-3-opus,错得就很离谱,竟然肯定鲁迅和鲁树人是同一个人 ,为了显得自己的真实性,甚至胡编乱造的说鲁迅1881年9月25日出生于浙江绍兴,所以周树人也经常被称为鲁树人。
鲁迅先生要是知道估计会气的直接问候它的“聪明”吧。
阶跃星辰
一顿搜索猛如虎,一看结果二百五,搞了个半天搜索个寂寞。
最开始说鲁迅和鲁树人是同一个人,到了后面又说鲁迅是周树人的笔名,这个回答我只能给一半分,不能再多了。
月之暗面和零一万物
这两个最新国产模型也无一例外纷纷踩坑,都掉入到了“鲁树人”这个陷阱中。
清华智谱和百度文心
作为两款较“老”国产模型,智谱清言是有自己的想法的,编故事能力杠杠的,文心一言本次表现还算不错,最起码没胡编乱造。
通义千问
通义千问测试下来还是挺不错的,虽然也进了坑,但在开头还是非常理智地指出这个问题不合理的地方,并且用双引号将“鲁树人”给圈了起来。
讯飞星火
讯飞星火可以说是所测模型中离正确答案最接近一个了。
如果它能把”鲁迅和鲁树人并不是两个不同的人“换成”鲁迅和鲁树人并不是两个相同的人“的话那整段个回答可以说是直接满分了。
经过本轮测试,所有模型基本上全军覆没。
由此我来说说我个人对各大模型的看法:
针对于上述问题,通义千问以及GPT4的回答明显比其他模型要更好。
它们能够清楚的判断出“鲁树人”应该是一个虚拟名,并用双引号给标注了出来,从而避免与真实名字混淆,两款模型同时并列第一。
以百度文心、讯飞星火、Claude3-opus 等其他模型的来说,回答都是半斤八两,排名并列第二。
对于智谱清言,真是有点辜负我的期望,一上来就开启编故事模式,所以本次排名垫底。
(注:由于问题具有局限性,评测结果可能并不全面,毕竟不同的AI模型在不同的领域问题上都有各自的优势,所以以上结论仅供大伙参考。)
为了能够更深入的了解,这里还是建议各位伙伴可以亲自去尝试提出不同类型的问题,以更直观地感受各个模型的表现。
介绍完各个模型,这里跟大伙分享一个好消息!
我们 IMYAI 已经针对各大模型的介绍专门做成了一个页面(在主站左侧栏即可找到),方便大伙在使用时浏览阅读。
下图是展示效果。
随便聊聊
从个人角度来说,众多大模型中我还是比较偏向于GPT 4。
主要原因还是在于它的强大的语言理解和生成能力,而且在各种NLP任务中表现都非常优秀。
当然,这只是针对于我个人而言,其他模型也各有优势,具体情况还是需要看各位的使用习惯。
以上就是各大AI模型的分析及测评,希望能够帮到各位。
人工智能大模型越来越火了,离全民大模型的时代不远了,大模型应用场景非常多,不管是做主业还是副业或者别的都行,技多不压身,我这里有一份全套的大模型学习资料,希望给那些想学习大模型的小伙伴们一点帮助!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。