赞
踩
前言01
国产AI大模型哪家强?
我平时主要使用“腾讯元宝、Kimi”这2款AI大模型,对于其他国产知名AI大模型的表现,我同样充满好奇。
本次从个人投资者的角度,结合非控股子公司的问题,来测试各AI大模型的实力。本次测试选择了目前知名度比较高的5款产品:百度的文心一言、科大讯飞的讯飞星火、阿里的通义千问\、腾讯的腾讯元宝、月之暗面的Kimi。
在评估不同的大型模型时,对每一个测试细项进行打分(满分:10分,总分50分)。如果某款大模型在某个测试项中不符合要求,将根据表现进行扣分。
由于评测和评分过程中存在主观因素,因此评\分仅供参考。为了让大家更快速地了解评测结果,先透露一下总体得分情况,见下图:
具体为什么最终是这个分数?得分项、丢分项在哪里?我们一起往下看吧。
语言理解能力02
国产AI大模型哪家强?
AI 大模型的本质其实就是大语言模型,因此语言理解可以说是影响各种大模型产品体验的基础要素。这里先测试上面四款产品对中文语意的理解能力。首先用经典的一词多意的段子来考验大模型们:
问题:“茅台”除了指代茅台酒品牌,还有哪些其他含义?请列举至少三个。
腾讯元宝
Kimi
通义千问
文心一言
讯飞星火
综上,从回答数量看,腾讯元宝、文心一言均是仅回答了3个解释,回答数量最多是讯飞星火8个、Kimi 6个。
从引用资料看,腾讯元宝在引用10篇资料的情况下,还会在底部推荐公众号相关内容;通义千问参考了6篇资料;讯飞星火参考了5篇资料。小结如下:
知识丰富性03
国产AI大模型哪家强?
问题:洋河的主要产品线有哪些?请简述各自的特点和市场定位。
1、腾讯元宝
根据问题有针对性地从“主要产品线”、“各产品线特点”、“各产品线市场定位”3个角度进行阐述。描述准确度也不错,阐述也更全面,提到了梨花村、贵酒、双沟系列的产品,但少了红酒系列。
下滑查看更多
2、Kimi
相对于腾讯元宝,对“洋河蓝色经典”的阐述要详细一些:把蓝色经典分为“海之蓝、天之蓝、梦之蓝、梦之蓝手工班系列”进行逐一描述。还提到了星得斯红酒,但该红酒并非主要在国际市场上销售。
其余不足之处:没有提到贵酒、梨花村产品线;对于双沟的描述凌乱;对于问题的回答不全面,如洋河大曲定位情况并未提及。
3、讯飞星火
对于产品线的梳理不够全面,仅提到了洋河蓝色经典、洋河大曲。最后提到的“洋河绝世风华”产品,洋河官网并未查到、印象中也没有该款产品。
问题回答上,并未提及各产品线的市场定位,回答有所欠缺。
4、文心一言
首先从问题回答上看,都有提及产品线、特点、定位。但给出的产品线不够全面,仅提及了蓝色经典、洋河大曲、洋河特曲。
错误点也挺多,下图可见AI把洋河大曲、洋河特曲描述为“定位于中端市场”;还出现了“洋河清香系列”,洋河不是浓香型吗?百度也没看到有“洋河清香系列”。
5、通义千问
对产品线的梳理也是不够全面,缺乏了“红酒、贵酒、梨花村”系列,仅写了“其他特色产品线”,并未过多展开。
6、小结
情境分析04
国产AI大模型哪家强?
问题:为分众传媒在面对新媒体竞争和市场多元化趋势时,提出战略建议,并分析预期的市场反应。
腾讯元宝:除了大家都提到的数字化、AI技术投入,还提到加大海外市场的拓展力度。其他的建议及预期市场反应回答得中规中矩,个人感觉这题回答得没有通义千问、讯飞星火、Kimi全面、准确。
腾讯元宝
文心一言
讯飞星火相比于通义千问的回答,要多出3条“个性化和定制化服务、关注用户体验、合作与联盟”,其余4点建议均有所共同点。
讯飞星火
Kimi给出的建议有6条,回答的相关度也比较紧密。相比于讯飞、通义,还提到了“海外市场、品牌合作”。回答的表现也有不错的参考建议。
Kimi
通义千问
小结:
观点论证05
国产AI大模型哪家强?
问题:在讨论腾讯在游戏产业的竞争地位时,有人认为“腾讯的游戏业务过于依赖中国市场”,请提供数据和案例支持或反驳这一观点。
腾讯元宝观点为“反驳”,提供的数据是23年国际市场游戏收入情况,用3款游戏表现和Supercell的游戏进行的案例印证观点。
腾讯元宝
Kimi的观点是“反驳”,提供的数据是23年国际市场游戏收入情况。从“国际市场产品表现、全国市场布局、海外市场增长策略、海外市场品牌建设”等角度,印证观点。Kimi相比于腾讯元宝的阐述要详细不少。
Kimi
文心一言用到的是24年一季报的数据。相较于Kimi和元宝,文心一言在观点论证时,分别提出“支持、反驳观点的数据和案例”的阐述,最终通过归纳结论得出“反驳”的观点。
不足之处:如下图提到“根据参考文章1/2/3”,但我并未找到所参考的文章链接在哪里。
文心一言
讯飞星火持“反驳”观点,引用了腾讯23年国内外市场游戏收入、热门游戏数据,在数据引用上表现较为出色。
在案例支持上阐述较为全面,不仅提及了国际市场情况、全球化战略布局;还提到了国内市场热门游戏、新游戏推出表现。但案例着重于描述国内市场情况,表现没有Kimi好。
讯飞星火
通义千问持“反驳”观点。回答的亮点:提到了“国际市场布局与收购”,并给出了相应的持股数据。足之处,海外游戏收入的数据未能抓取,对于腾讯财报的数据引用几乎为0。
通义千问
小结:
内容生成能力06
国产AI大模型哪家强?
问题:请写一份500字以内的古井贡酒2023年报分析,要有具体的数据支撑且涵盖以下内容:1、营收和利润概览;2、白酒业务情况(要注明产品占比);3、近5年销售费用情况。
Kimi
Kimi:回答该问题时,Kimi显示:“无法访问实时的数据库或外部数据源,因此无法提供古井贡酒2023年的具体营收、利润和销售费用等数据。不过,我可以提供一个基于假设数据的分析报告模板,您可以根据实际数据进行填充和调整。”
如上图所示,具体数据都是用xx进行代替。
腾讯元宝
腾讯元宝:*引用的数据都是错的*:1)在营收和利润概览上,元宝用的是2022年报数据。正确数据见下图:
2)在产品占比中,根据个人统计,年份原浆占白酒营收79%,古井贡酒占10%,“黄鹤楼及其他”占11%(注:23年不再单独展示黄鹤楼数据)。
但元宝描述为:年份原浆系列占比达到70%左右;古井贡酒系列和黄鹤楼系列分别占比约20%和5%。偏差较大。
3)错误3:“2023年,公司销售费用约为36亿元,同比增长20%左右”。如下图报告所示,费用为54亿元。
出乎意料的是,文心一言数据准确度很高。营收利润、白酒营收占比、年份原浆的数据都是正确的。但23年销售费用是错误的。
文心一言
“讯飞星火”和“通义千问”的数据错误有点多:营收利润数据、产品营收占比、销售费用数据,全都是错的。
讯飞星火
通义千问
小结:
总结07
国产AI大模型哪家强?
各大模型在各个方面都有一定的优势和不足,根据前面的5大能力评测,得出总分如下:Kimi分数37;腾讯元宝36;讯飞星火35;通义千问34;文心一言33。
1、Kimi
优点:
1)语言理解能力较强,能够准确理解中文语意。
2)知识丰富性较好,对于洋河的主要产品线及其特点和市场定位有较全面的描述。
3)情境分析能力较强,能够给出相关度较高的建议。
提升空间:
1)内容生成能力有待提高,例如在古井贡酒2023年报分析中,由于无法访问实时数据库,只能提供基于假设数据的分析报告模板。
2、腾讯元宝
优点:1)语言理解能力较强,能够准确理解中文语意。2)知识丰富性较好,对于洋河的主要产品线及其特点和市场定位有较全面的描述。
提升空间:1)内容生成能力有待提高,例如在古井贡酒2023年报分析中,引用的数据错误较多。2)在情境分析方面,给出的建议及预期市场反应相对较弱。
3、讯飞星火
优点:1)语言理解能力较好,能够理解中文语意。2)情景分析能力强,给出的建议和预期市场反应相对较全面。
提升空间:1)知识丰富性有待提高,例如在洋河的主要产品线描述中,遗漏了一些重要产品线。2)内容生成能力需要加强,例如在古井贡酒2023年报分析中,数据错误较多。
4、通义千问
优点: 1)观点论证能力具有独特优势,尤其是在国际市场布局与收购方面的讨论;2)语言理解能力较好;
提升空间:
1)知识丰富性有待提高,例如在洋河的主要产品线描述中,遗漏了一些重要产品线。
2)数据准确度还需加强,例如在古井贡酒2023年报分析中,错误较多。
3)在某些情况下,对于问题的回答不够全面。
5、文心一言
优点:1)语言理解能力较好,能够理解中文语意。2)内容生成能力较强,例如在古井贡酒2023年报分析中,数据准确度较高。
提升空间:
1)知识丰富性有待提高,例如在洋河的主要产品线描述中,遗漏了一些重要产品线。
2)观点论证能力需要加强,例如在讨论腾讯游戏情况时,给出的数据和案例支持不够充分。
6、综上
由于本次横评的问题样本数量有限,得出的评分和结论可能无法完全覆盖所有场景和用户需求。在实际使用过程中,每个人对AI的体验和需求可能会有所不同,因此上述评分仅供参考。在选择适合自己的AI时,可以考虑以下几个方面:
1)个人需求:首先要明确自己使用AI大模型的主要目的,是为了获取信息、解决问题、提高工作效率还是娱乐休闲。不同的需求可能导致对AI大模型的不同偏好。
2)使用场景:考虑自己在何种场景下使用AI大模型,如在线聊天、写作辅助、数据分析等。不同场景可能需要不同类型的AI大模型。
3)交互方式:根据自己的使用习惯,选择适合自己的交互方式,如文本输入、语音输入等。
4)模型特点:了解各个AI大模型的特点,如语言理解能力、知识丰富性、情境分析能力、观点论证能力和内容生成能力等,选择在这些方面表现较好的模型。
5)用户体验:关注AI大模型的用户体验,如响应速度、界面设计、易用性等。良好的用户体验可以提高使用效率和满意度。
希望大家能够在实际使用过程中,根据自己的需求和感受,选择最适合自己的AI大模型。同时,我们也期待各大AI大模型在未来不断优化和完善,为用户提供更加优质的服务。
作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。