Monodyee

这个屌丝很懒，什么也没留下！

热门标签

热门文章

当前位置: article > 正文

评测七大主流AI！谁是中文表现最强者？实测 GPT4、kimi、LLama3_lmstudio llama3 70b

作者：Monodyee | 2024-04-26 16:16:38

赞

踩

lmstudio llama3 70b

ChatGPT狂飙160天，世界已经不是之前的样子。

新建了免费的人工智能中文站https://ai.weoknow.com

新建了收费的人工智能中文站ai人工智能工具
每天给大家更新可用的国内可用chatGPT资源

发布在https://it.weoknow.com

https://ai.hzytsoft.cn

更多资源欢迎关注

昨天，Meta 正式发布了人们等待已久的开源大模型 Llama 3（羊驼 3）！

Meta 开发 Llama 模型的主要目标：打破 OpenAI 在大语言模型（LLM）市场的主导地位

Llama3 有三个版本，8B（小杯）、70B （中杯）、400B （大杯），已经发布的是 8B 和 70B，400B 要等到夏天发布

全球 AI 界沸腾了！

为啥？

第一、性能高！

8B性能超过 GPT3.5，70B接近 GPT-4，400B 号称可与还未发布的 GPT-5 掰掰手腕

1B 代表 10 亿参数，参数越大，越厉害！8B 就是 80 亿参数，400B 就是 4000 万参数

下图是开源AI“性能-成本”图，llama3处在成本高+性能高的区域！

第二，免费！

不仅普通用户免费，对开发者、中小 AI 开发公司也免费！

创业者完全可以基于 LLaMA，引入专业数据，微调出自己专有大模型，而无须对 meta 支付任何费用

李开复的零一万物 Yi 大模型就是基于 LLaMA 架构

第三，数据安全！

不但代码完全公开不会有后门，大家还可以把 Llama 3 下载到本地，完全隔绝运行，绝对保证数据安全

最后，中文支持好！

主流 AI，除GPT外，对中文支持都不太友好。

而 Llama 3 使用了超过 15 万亿令牌的公开在线数据进行预训练，其中包括了超过 30 种语言的高质量非英语数据

传奇研究员，AI 开源倡导者吴恩达表示：Llama 3 的发布是自己这辈子收到过的最好的礼物，谢谢你 Meta！

另外，OpenAI 公司最近有点“不知进取”，Llama 3 发布可以促进 GPT-5 的尽早面世！

关于 Llama 3 的更多细节，可看昨天发的《llama3 来了，GPT-5 还远吗？》

下面，汇总国外、国内免费使用 Llama 3的渠道

再评测全球主流 AI 大模型对中文的支持程度！

一、Llama 3 免费使用渠道

（一）本地使用

通过 ollama.com 部署到本地使用，昨天已经介绍了，这里不赘述

（二）在线使用

1、国外网络访问

HuggingChat：

huggingface.co/chat/

2、国内直联

补充一个国内直联方式

通过英伟达网站直接免费使用！

登录网址：

https://build.nvidia.com/explore/discover#llama3-70b

输入邮箱，QQ 邮箱即可，通过人机验证，系统会发注册信到你的邮箱

到邮箱找到这封信，点击验证

登录后，点击右上角的头像，可以看到赠送的 1000 个积分(企业邮箱可再申请送 5000 积分）

初测：

选中70B，问出那个经典问题：周树人为什么殴打鲁迅？

二、主流 AI 中文支持测试

下图是最新的全球主流大模型在中文能力上的表现排行榜

范围包括国内开源模型、全球主流开源/闭源大模型，参考意义很大。（排行榜结果来自于 llmsys）

（一）本次参评AI

四个闭源的：

1、GPT4-0409

公认的全球综合实力最佳,0409 最新版

测试网址“清风 AI”（点击本文左下角“阅读原文”可达）

使用网址(国内直联）：www.91chatgpt.site

2、CLAUDE3 sonnet(中杯）

全球最佳文字大模型，

使用网址（外网访问）：claude.ai/chats

3、Kimi 助手

近期国内爆火的国产 AI，周访问量已经排名第一

使用网址（国内直联）：kimi.moonshot.cn

4、Gemini 1.5 Pro

谷歌最强AI

使用网址（外网访问）：aistudio.google.com

三个开源的：

5、LLAMA3 70B（中杯）

刚刚发布，号称逼近 GPT4 的开源模型

6、mixtral-8x22b

欧洲最佳 AI 大模型

7、Command R+

专注于检索增强生成(RAG)和工具使用能力，针对企业级应用场景进行了优化和提升,提高了准确性和效率。拥有高达 128k 的上下文窗口,支持 10 种主要商业语言,包括亚洲语言如中文

以上三个模型测试网址均为：https://huggingface.co/chat

国内可以使用https://build.nvidia.com/explore 访问（R+暂时不行）

（二）评测数据

我们不使用专业数据，从通识、逻辑进行判断

前两天，看到中科院有个研究，百度“弱智吧”数据是最佳中文训练数据集！

具体来说，使用弱智吧数据训练的大模型，跑分超过百科、知乎、豆瓣、小红书等平台，甚至是研究团队精心挑选的数据集

我们就用弱智吧的几个经典提问来考考一众大模型

数据集：

https://github.com/Leymore/ruozhiba

第 1 题：周树人为什么要殴打鲁迅？
第 2 题：生鱼片是死鱼片吗？
第 3 题：等红灯是在等绿灯吗？
第 4 题：凿壁偷光要判多少年？
第 5 题：我发现奥斯卡颁奖典礼是假的，台下坐的大多数都是他们请来的演员
第 6 题：一件瓷器，底款写着“大明成化年制的哦”八个字，请问这件瓷器是古代的还是现代的?
第7 题：哥哥 4 岁，弟弟是哥哥一半，等到哥哥一百岁的时候，弟弟多少岁?

（三）评测结果

具体评测如下，评测汇总表见后

第 1 题：周树人为什么要殴打鲁迅？

GPT4-0409

CLAUDE3 sonnet(中杯）

Kimi 助手

LLAMA3 70B（中杯）

mixtral-8x22b

Command R+

第 2 题：生鱼片是死鱼片吗？

GPT4-0409

CLAUDE3 sonnet(中杯）

Kimi 助手

LLAMA3 70B（中杯）

mixtral-8x22b

Command R+

第 3 题：等红灯是在等绿灯吗？

GPT4-0409

CLAUDE3 sonnet(中杯）

Kimi 助手

LLAMA3 70B（中杯）

mixtral-8x22b

Command R+

第 4 题：凿壁偷光要判多少年？

GPT4-0409

CLAUDE3 sonnet(中杯）

Kimi 助手

LLAMA3 70B（中杯）

mixtral-8x22b

Command R+

第 5 题：“我发现奥斯卡颁奖典礼是假的，台下坐的大多数都是他们请来的演员”这句话是什么意思？

GPT4-0409

CLAUDE3 sonnet(中杯）

Kimi 助手

LLAMA3 70B（中杯）

mixtral-8x22b

Command R+

第 6 题：一件瓷器，底款写着“大明成化年制的哦”八个字，请问这件瓷器是古代的还是现代的？

GPT4-0409

CLAUDE3 sonnet(中杯）

Kimi 助手

LLAMA3 70B（中杯）

mixtral-8x22b

Command R+

第 7 题：哥哥 4 岁，弟弟是哥哥一半，等到哥哥一百岁的时候，弟弟多少岁？

GPT4-0409

CLAUDE3 sonnet(中杯）

Kimi 助手

LLAMA3 70B（中杯）

mixtral-8x22b

Command R+

gemini pro 1.5

最开始只有6个AI，测试到最后，想想怎么能少了谷歌？增加一个

gemini pro 1.5

汇总表：

测试结果：对中文的理解，GPT4 第一，KIMI 紧随其后，LLam3-70B 第三！谷歌 gemini 1.5 pro 第四

mixtral-8x22b 得分如此之低有点出乎意料

随手还测试了 gemma-1.1-7b，Mistral-7B，完全答非所问

总的来说，Llama 3 模型对中文的支持是积极的，但可能需要社区的进一步优化和本地化工作来充分发挥其在中文语境下的性能

好啦，今天的分享就到这里！

哦对了我自己搭建的收费站周末特惠10月包月了

https://ai.hzytsoft.cn

ChatGPT狂飙160天，世界已经不是之前的样子。

新建了免费的人工智能中文站https://ai.weoknow.com

新建了收费的人工智能中文站ai人工智能工具
每天给大家更新可用的国内可用chatGPT资源

发布在https://it.weoknow.com

更多资源欢迎关注

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Monodyee/article/detail/491945

推荐阅读

相关标签

Copyright © 2003-2013 www.wpsshop.cn 版权所有，并保留所有权利。

闽ICP备14008679号