当前位置:   article > 正文

玩一玩阿里通义千问开源版,Win11 RTX3060本地安装记录!_using `low_cpu_mem_usage=true` or a `device_map` r

using `low_cpu_mem_usage=true` or a `device_map` requires accelerate: `pip i

大概在两天前,阿里做了一件大事儿。

图片

就是开源了一个低配版的通义千问模型--通义千问-7B-Chat。

这应该是国内第一个大厂开源的大语言模型吧。

虽然是低配版,但是在各类测试里面都非常能打。

官方介绍:

Qwen-7B是基于Transformer的大语言模型, 在超大规模的预训练数据上进行训练得到。预训练数据类型多样,覆盖广泛,包括大量网络文本、专业书籍、代码等。同时,在Qwen-7B的基础上,我们使用对齐机制打造了基于大语言模型的AI助手Qwen-7B-Chat。本仓库为Qwen-7B-Chat的仓库。

同时官方也给出了很多测试结果。

比如中文评测。

在C-Eval验证集上得分对比:

Model

Avg. Acc.

LLaMA2-7B-Chat

31.9

LLaMA2-13B-Chat

40.6

Chinese-Alpaca-2-7B

41.3

Chinese-Alpaca-Plus-13B

43.3

Baichuan-13B-Chat

50.4

ChatGLM2-6B-Chat

50.7

InternLM-7B-Chat

53.2

Qwen-7B-Chat

54.2

如果单看这个数据。说“吊打”同级别羊驼模型一点不夸张吧。比起热门的开源模型ChatGLM2也高出了不少。

除此之外还有:

英文测评(南玻王)

代码测评(南玻王)

数学测评(南玻王)

长序列测评(南玻王)

工具使用能力测评

全方位碾压同类70亿参数模型,在即将开源的、用于评估工具使用能力的自建评测基准上,居然K·O了GPT-4 哈哈。

Model

Tool Selection (Acc.↑)

Tool Input (Rouge-L↑)

False Positive Error↓

GPT-4

95%

0.90

15%

GPT-3.5

85%

0.88

75%

Qwen-7B-Chat

99%

0.89

8.5%

我也不太懂,没研究过这个基准测试,反正就是看起来很厉害的样子。

不管怎么样,大厂开源的东西总不会太差。有可能真的是最好的小型中文大语言模型了。

阿里已经亮出态度了,接下来压力给到百度,讯飞,华为... 哈哈~~

既然阿里都开源了,那我们自然就笑纳了,接下就在本机跑一个试试。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/很楠不爱3/article/detail/439207
推荐阅读
相关标签
  

闽ICP备14008679号