当前位置:   article > 正文

文心一言、通义千问、kimi谁更厉害?_kimi和文心一言对比

kimi和文心一言对比

 AI视频生成:小说文案智能分镜+智能识别角色和场景+批量Ai绘图+自动配音添加音乐+一键合成视频+百万播放量icon-default.png?t=N7T8https://aitools.jurilu.com/


在回答这个问题之前,我们来先看看目前国内AI的情况。

至2022年AI爆发后,在中国已催生了上千个AI产品。

这些产品涵盖了从头部大厂到高等院校,再到初创企业的广泛阵容。

如:

  • 大厂:百度文心、阿里通义、腾讯元宝、字节豆包、讯飞星火等
  • 高校:清华大学、北京大学等
  • 初创:月之暗面KIMI、深度求索DeepSeek也已崭露头角,推出了独具特色的AI产品。

到这里有个问题就浮现了,应该选择哪个AI,哪个AI适合自己?

这里是清华SuperBench的测评数据

类似这样的测评报告互联网上已经很多,真正哪个合适自己还是自己尝试一下

以下是个人的一些经验分享让大家少走些路,仅供参考一下:

目前在国际上顶端的还是gpt4与claude 3,国内主要就是文心4与清华GLM-4。

在国内选择的话:

  • 如果花钱的话,可以选择文心一言4.0
  • 免费AI
    • 考虑到综合能力的话可以选择字节的豆包
    • 只考虑文本类的话deepseek也是不错的选择
    • 偏搜索引擎类的话秘塔AI、KIMI

前期文心一言3.5的表现的确是很差,可以对比自己之前问的问题,差别是非常大的。之前胡说八道的回答还是比较多的,现在比如增加了联网搜索等功能,可以说文心一言已经迭代级了很多。

正如我上面所说,国内的AI产品如雨后春笋爆发出来了,同时它们在不断迭代与进步。它们不仅能快速检索信息,还能智能地分析搜索结果并给出结论。这种能力对于日常工作中处理信息和数据至关重要。

再回到我们的问题,与其说文心一言还不如通义千问、KIMI,还不如把问题扩大点,国内AI产品的对比?

这里我选择其中的5个AI产品进行对比

一、信息更新程度

在信息更新程度来说通义千问与豆包的表现非常好,当然这个测试还是比较片面的,大家可以在遇到其它时效性问题时也进行对比一下。

以下是具体的对比情况:

问题一

2024年福建高考录取分数线?

此问题是在2024年06月24日16时26分公布的,问题是在公布后5分钟左右内问的

目前国内关注性最高的应该就是高考分数线公布与填写高考志愿了。目前已经有几个省公布了高考分数线,刚才看了一下最近2024年06月24日16时26分福建省也公布了分数线,这是福建省教育考试院官方网截图。

我们来看看几款国内的AI产品的信息更新情况:

文心一言3.5&4.0

  • 文心一言3.5

物理类431分,是不对的。

历史类453分,也是不对的,可以看到括号里的说明,它已经找到了正确的文章2分数是正确的,还找到文章3是错误的分数,然而最后AI判断后选择了错误的文章3的结果。

  • 文心一言4.0

文心一言4.0能给出正确的答案,实时度非常的高。

通义千问

通义千问输出的结果是对的,不但输出的2024年正确的结果,同时还给出了历年的分数线数据。

KIMI

KIMI没有查询到福建省的高考录取分数线。

豆包

豆包也能正确的输出答案,同时也给出了近几年的录取分数线。

DeepSeek

显然deepseek的知识库和以上的几款AI是不同的,它不是实时的它是截至2023年的知识库。

问题二

2024年上海高考录取分数线?

此问题是在2024年06月23日13时42分公布的,问题是在公布后1天后问的

看看上海的分数线,公布的比较早是2024年06月23日13时42分公布的,这是上海市教育考试院官方网截图。

只要是知识库是实时的,基本是对的

  • 图片解析能力

通过一张网络上流传的比较广的一张图

这张“不干了”的图片,看看AI们是如何解析它的

文心一言3.5

文心一言3.5支持上传word、pdf及图片格式的文件,上传图片后它可以解析出图片中木板上刻着“不幹了”字样,但无法给不出图片中描述的是哪些历史人物。

文心一言4.0

文心一言4.0也可以识别出木板上的文字,同时进了一步就是把繁体“不幹了”翻译成简体“不干了”。同样也无法给不出图片中描述的是哪些历史人物。

通义千问

识别出来的是“不辩了”,识别能力还是不行

KIMI

KIMI支持上传pdf、doc、xlsx、ppt、txt、图片等文件,没有识别出木板上的文字

豆包

豆包支持的文件类型:PDF、Docx、xlsx、txt、pptx、csv。所以我把图片放到docx里再上传给豆包。它可以识别出木板上的文字

Copilot

看完这些后或许得到的结论就是AI只能识别出木板上的文字,推理不出描述的是哪位历史人物,我们来看看微软的Copilot的回答。鲁迅终于出现了。。。。

  • 图像生成功能

生成以下要求的图片:

中国古代女子,女子有几缕青丝垂于耳畔,头上插着一支玉簪,簪头镶嵌着一颗小巧的珍珠,闪烁着温润的光泽。

文心一言3.5

文心一言4.0

通义千问

豆包

生成图片方面个人感觉还是豆包比较符合审美风格

  • 自然语言处理能力

问题一

来一份钢丝球炒鸡蛋的做法

一个比较经典的问题,看看AI们的回答

文心一言3.5

能正确的回答不存在,还过和早期所有的AI产品一样还是会把假设性做法列出来。我记得这个问题的回答进阶是这样的:

  • 钢丝球炒鸡蛋是道美味的菜,再列出炒钢丝球步骤
  • 然后就是钢丝球炒鸡蛋是不存在的,再列出假设炒钢丝球步骤
  • 再然后就是不存在,再列出炒鸡蛋的步骤

文心一言3.5应该处于第二阶段了

文心一言4.0

比较正确的回答

通义千问

比较正确的回答

KIMI

比较正确的回答

豆包

比较正确的回答

DeepSeek

比较正确的回答

问题二

汉字里带水字旁边,却与水无关的字

这个问题也是早期AI产品刚出来后就问的一个问题

文心一言3.5

这是2024年6月问的

我记得在年初那会问这个问题的回答第一并没有详细的解释,第二也有出现河、瀑之类的字。

说明文心一言3.5已经更新和进步了很多。

文心一言4.0

比较正确

通义千问

比较正确

KIMI

KIMI还是有不少瑕疵的,也出现之前文心一言3.5的河字

豆包

比较正确

DeepSeek

比较正确

  • 翻译能力

想对比一下AI的翻译能力,网友给推荐这个中国式的"意思",我们来看看AI是如何翻译的

把以下内容翻译成英文:

领导:“你这是什么意思?”

阿呆:“没什么意思,意思意思。”

可以看到基本表现都还不错,只不过通义千问的翻译少了点“意思”,其它AI都能表达出那个意思。

六、总结

以上都是一些非专业的对比,只是基于个人的使用体验。当然也有一些机构输出也专业的测试报告。

比如:这份《中文大模型能力评测榜单》综合能力得分为分类能力、信息抽取能力、阅读理解能力、数据分析能力四者得分的平均值。

其实可以看到不同机构输出的报告都有所不同,最终怎么样我们可以自己试试。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/神奇cpp/article/detail/981416
推荐阅读
相关标签
  

闽ICP备14008679号