赞
踩
在这个千模大战的AI时代,国内很多大厂都在做自己的基础大模型,比如Qwen、Baichuan、文心一言、星火、盘古等等;对于小玩家或者 个人来说使用大模型的最佳方式就是基于这些基础大模型来做微调。
但是对于微调后的大模型效果怎样呢?有没有好的工具去衡量、去评价判断呢?在这里给大家强力推荐一个非常好用的工具,那就是opencompass,中文名称司南,最近在项目中也刚好在使用它,非常方便好用,而且它是一个开源的大模型测试工具,支持很多常用的大模型,测试数据集也很丰富,可以从语言、知识、推理、考试、理解、长文本、安全、代码等多个维度测试大模型的能力。
官网网址:https://opencompass.org.cn/home
github网址: https://github.com/open-compass/opencompass
opencompass是一款面向大模型评测的一站式平台,特点如下:
开源:大家都可以方便地使用,而且可以根据自身需要做一些定制开发。
全面的能力维度:五大维度设计,提供 70+ 个数据集约 40万题的模型评测方案,全面评估模型能力。
丰富的模型支持:已支持 20+ HuggingFace ,同时还支持 模型的API方式。
分布式高效评测:一行命令实现任务分割和分布式评测,数小时即可完成千亿模型全量评测。
灵活扩展:可以新增自定义模型和数据集
数据集支
大模型及API支持
除了支持开源大模型本地支持测试,同时还支持已经部署好的大模型的API接口测试。
开源大模型 | API模型 |
InternLM | OpenAI |
LLaMA | Gemini |
LLaMA3 | Claude |
Vicuna | ZhipuAI(ChatGLM) |
Alpaca | Baichuan |
Baichuan | ByteDance(YunQue) |
WizardLM | Huawei(PanGu) |
ChatGLM2 | 360 |
ChatGLM3 | Baidu(ERNIEBot) |
TigerBot | MiniMax(ABAB-Chat) |
Qwen | SenseTime(nova) |
Qwen1.5 | Xunfei(Spark) |
BlueLM | |
Gemma |
安装使用
具体使用可以参考官方文档或者github。
官方文档:https://opencompass.org.cn/doc
更多最新文章,请关注公众号:大白爱爬山
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。