神奇cpp

这个屌丝很懒，什么也没留下！

热门标签

热门文章

当前位置: article > 正文

文心一言、通义千问、kimi谁更厉害？_kimi和文心一言对比

作者：神奇cpp | 2024-08-15 00:59:21

赞

踩

kimi和文心一言对比

AI视频生成：小说文案智能分镜+智能识别角色和场景+批量Ai绘图+自动配音添加音乐+一键合成视频+百万播放量https://aitools.jurilu.com/

在回答这个问题之前，我们来先看看目前国内AI的情况。

至2022年AI爆发后，在中国已催生了上千个AI产品。

这些产品涵盖了从头部大厂到高等院校，再到初创企业的广泛阵容。

如：

大厂：百度文心、阿里通义、腾讯元宝、字节豆包、讯飞星火等
高校：清华大学、北京大学等
初创：月之暗面KIMI、深度求索DeepSeek也已崭露头角，推出了独具特色的AI产品。

到这里有个问题就浮现了，应该选择哪个AI，哪个AI适合自己？

这里是清华SuperBench的测评数据

类似这样的测评报告互联网上已经很多，真正哪个合适自己还是自己尝试一下

以下是个人的一些经验分享让大家少走些路，仅供参考一下：

目前在国际上顶端的还是gpt4与claude 3，国内主要就是文心4与清华GLM-4。

在国内选择的话：

如果花钱的话，可以选择文心一言4.0
免费AI
- 考虑到综合能力的话可以选择字节的豆包
- 只考虑文本类的话deepseek也是不错的选择
- 偏搜索引擎类的话秘塔AI、KIMI

前期文心一言3.5的表现的确是很差，可以对比自己之前问的问题，差别是非常大的。之前胡说八道的回答还是比较多的，现在比如增加了联网搜索等功能，可以说文心一言已经迭代级了很多。

正如我上面所说，国内的AI产品如雨后春笋爆发出来了，同时它们在不断迭代与进步。它们不仅能快速检索信息，还能智能地分析搜索结果并给出结论。这种能力对于日常工作中处理信息和数据至关重要。

再回到我们的问题，与其说文心一言还不如通义千问、KIMI，还不如把问题扩大点，国内AI产品的对比？

这里我选择其中的5个AI产品进行对比

一、信息更新程度

在信息更新程度来说通义千问与豆包的表现非常好，当然这个测试还是比较片面的，大家可以在遇到其它时效性问题时也进行对比一下。

以下是具体的对比情况：

问题一

2024年福建高考录取分数线?

此问题是在2024年06月24日16时26分公布的，问题是在公布后5分钟左右内问的

目前国内关注性最高的应该就是高考分数线公布与填写高考志愿了。目前已经有几个省公布了高考分数线，刚才看了一下最近2024年06月24日16时26分福建省也公布了分数线，这是福建省教育考试院官方网截图。

我们来看看几款国内的AI产品的信息更新情况：

文心一言3.5&4.0

文心一言3.5

物理类431分，是不对的。

历史类453分，也是不对的，可以看到括号里的说明，它已经找到了正确的文章2分数是正确的，还找到文章3是错误的分数，然而最后AI判断后选择了错误的文章3的结果。

文心一言4.0

文心一言4.0能给出正确的答案，实时度非常的高。

通义千问

通义千问输出的结果是对的，不但输出的2024年正确的结果，同时还给出了历年的分数线数据。

KIMI

KIMI没有查询到福建省的高考录取分数线。

豆包

豆包也能正确的输出答案，同时也给出了近几年的录取分数线。

DeepSeek

显然deepseek的知识库和以上的几款AI是不同的，它不是实时的它是截至2023年的知识库。

问题二

2024年上海高考录取分数线?

此问题是在2024年06月23日13时42分公布的，问题是在公布后1天后问的

看看上海的分数线，公布的比较早是2024年06月23日13时42分公布的，这是上海市教育考试院官方网截图。

只要是知识库是实时的，基本是对的

图片解析能力

通过一张网络上流传的比较广的一张图

这张“不干了”的图片，看看AI们是如何解析它的

文心一言3.5

文心一言3.5支持上传word、pdf及图片格式的文件，上传图片后它可以解析出图片中木板上刻着“不幹了”字样，但无法给不出图片中描述的是哪些历史人物。

文心一言4.0

文心一言4.0也可以识别出木板上的文字，同时进了一步就是把繁体“不幹了”翻译成简体“不干了”。同样也无法给不出图片中描述的是哪些历史人物。

通义千问

识别出来的是“不辩了”，识别能力还是不行

KIMI

KIMI支持上传pdf、doc、xlsx、ppt、txt、图片等文件，没有识别出木板上的文字

豆包

豆包支持的文件类型：PDF、Docx、xlsx、txt、pptx、csv。所以我把图片放到docx里再上传给豆包。它可以识别出木板上的文字

Copilot

看完这些后或许得到的结论就是AI只能识别出木板上的文字，推理不出描述的是哪位历史人物，我们来看看微软的Copilot的回答。鲁迅终于出现了。。。。

图像生成功能

生成以下要求的图片：

中国古代女子，女子有几缕青丝垂于耳畔，头上插着一支玉簪，簪头镶嵌着一颗小巧的珍珠，闪烁着温润的光泽。

文心一言3.5

文心一言4.0

通义千问

豆包

生成图片方面个人感觉还是豆包比较符合审美风格

自然语言处理能力

问题一

来一份钢丝球炒鸡蛋的做法

一个比较经典的问题，看看AI们的回答

文心一言3.5

能正确的回答不存在，还过和早期所有的AI产品一样还是会把假设性做法列出来。我记得这个问题的回答进阶是这样的：

钢丝球炒鸡蛋是道美味的菜，再列出炒钢丝球步骤
然后就是钢丝球炒鸡蛋是不存在的，再列出假设炒钢丝球步骤
再然后就是不存在，再列出炒鸡蛋的步骤

文心一言3.5应该处于第二阶段了

文心一言4.0

比较正确的回答

通义千问

比较正确的回答

KIMI

比较正确的回答

豆包

比较正确的回答

DeepSeek

比较正确的回答

问题二

汉字里带水字旁边，却与水无关的字

这个问题也是早期AI产品刚出来后就问的一个问题

文心一言3.5

这是2024年6月问的

我记得在年初那会问这个问题的回答第一并没有详细的解释，第二也有出现河、瀑之类的字。

说明文心一言3.5已经更新和进步了很多。

文心一言4.0

比较正确

通义千问

比较正确

KIMI

KIMI还是有不少瑕疵的，也出现之前文心一言3.5的河字

豆包

比较正确

DeepSeek

比较正确

翻译能力

想对比一下AI的翻译能力，网友给推荐这个中国式的"意思"，我们来看看AI是如何翻译的

把以下内容翻译成英文：

领导：“你这是什么意思？”

阿呆：“没什么意思，意思意思。”

可以看到基本表现都还不错，只不过通义千问的翻译少了点“意思”，其它AI都能表达出那个意思。

六、总结

以上都是一些非专业的对比，只是基于个人的使用体验。当然也有一些机构输出也专业的测试报告。

比如：这份《中文大模型能力评测榜单》综合能力得分为分类能力、信息抽取能力、阅读理解能力、数据分析能力四者得分的平均值。

其实可以看到不同机构输出的报告都有所不同，最终怎么样我们可以自己试试。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/神奇cpp/article/detail/981416

推荐阅读

相关标签

Copyright © 2003-2013 www.wpsshop.cn 版权所有，并保留所有权利。

闽ICP备14008679号