赞
踩
大概在两天前,阿里做了一件大事儿。
就是开源了一个低配版的通义千问模型--通义千问-7B-Chat。
这应该是国内第一个大厂开源的大语言模型吧。
虽然是低配版,但是在各类测试里面都非常能打。
官方介绍:
Qwen-7B是基于Transformer的大语言模型, 在超大规模的预训练数据上进行训练得到。预训练数据类型多样,覆盖广泛,包括大量网络文本、专业书籍、代码等。同时,在Qwen-7B的基础上,我们使用对齐机制打造了基于大语言模型的AI助手Qwen-7B-Chat。本仓库为Qwen-7B-Chat的仓库。
同时官方也给出了很多测试结果。
比如中文评测。
在C-Eval验证集上得分对比:
Model |
Avg. Acc. |
LLaMA2-7B-Chat |
31.9 |
LLaMA2-13B-Chat |
40.6 |
Chinese-Alpaca-2-7B |
41.3 |
Chinese-Alpaca-Plus-13B |
43.3 |
Baichuan-13B-Chat |
50.4 |
ChatGLM2-6B-Chat |
50.7 |
InternLM-7B-Chat |
53.2 |
Qwen-7B-Chat |
54.2 |
如果单看这个数据。说“吊打”同级别羊驼模型一点不夸张吧。比起热门的开源模型ChatGLM2也高出了不少。
除此之外还有:
英文测评(南玻王)
代码测评(南玻王)
数学测评(南玻王)
长序列测评(南玻王)
工具使用能力测评
全方位碾压同类70亿参数模型,在即将开源的、用于评估工具使用能力的自建评测基准上,居然K·O了GPT-4 哈哈。
Model |
Tool Selection (Acc.↑) |
Tool Input (Rouge-L↑) |
False Positive Error↓ |
GPT-4 |
95% |
0.90 |
15% |
GPT-3.5 |
85% |
0.88 |
75% |
Qwen-7B-Chat |
99% |
0.89 |
8.5% |
我也不太懂,没研究过这个基准测试,反正就是看起来很厉害的样子。
不管怎么样,大厂开源的东西总不会太差。有可能真的是最好的小型中文大语言模型了。
阿里已经亮出态度了,接下来压力给到百度,讯飞,华为... 哈哈~~
既然阿里都开源了,那我们自然就笑纳了,接下就在本机跑一个试试。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。