赞
踩
图源自《A Survey on Evaluation of Large Language Models》
以下的几个指标都是chatglm2使用到的评估指标:
Model | Average | STEM | Social Sciences | Humanities | Others |
---|---|---|---|---|---|
ChatGLM-6B | 40.63 | 33.89 | 44.84 | 39.02 | 45.71 |
ChatGLM2-6B (base) | 47.86 | 41.20 | 54.44 | 43.66 | 54.46 |
ChatGLM2-6B | 45.46 | 40.06 | 51.61 | 41.23 | 51.24 |
Chat 模型使用 zero-shot CoT (Chain-of-Thought) 的方法测试,Base 模型使用 few-shot answer-only 的方法测试
自动化测评(一键测评)、广泛的代表性模型(9个模型)、人类基准。
SuperCLUE琅琊榜还有一些不同模型之间的对战获胜数据(如下图),考虑到gpt3.5训练语料中中文语料不多,比某些国产大模型要稍逊色也是可以理解的:
项目链接:
如果是做题问答,可以用Ceval指标,chatglm2-6b项目中就有代码
我们选取了部分中英文典型数据集进行了评测,以下为 ChatGLM2-6B 模型在 MMLU (英文)、C-Eval(中文)、GSM8K(数学)、BBH(英文) 上的测评结果。在 evaluation 中提供了在 C-Eval 上进行测评的脚本。
Model | Average | STEM | Social Sciences | Humanities | Others |
---|---|---|---|---|---|
ChatGLM-6B | 38.9 | 33.3 | 48.3 | 41.3 | 38.0 |
ChatGLM2-6B (base) | 51.7 | 48.6 | 60.5 | 51.3 | 49.8 |
ChatGLM2-6B | 50.1 | 46.4 | 60.4 | 50.6 | 46.9 |
Chat 模型使用 zero-shot CoT 的方法测试,Base 模型使用 few-shot answer only 的方法测试
类似的知识类评估基准还有:
8.5k高质量的小学数学应用题
Model | Accuracy | Accuracy (Chinese)* |
---|---|---|
ChatGLM-6B | 4.82 | 5.85 |
ChatGLM2-6B (base) | 32.37 | 28.95 |
ChatGLM2-6B | 28.05 | 20.45 |
所有模型均使用 few-shot CoT 的方法测试,CoT prompt 来自 http://arxiv.org/abs/2201.11903
* 我们使用翻译 API 翻译了 GSM8K 中的 500 道题目和 CoT prompt 并进行了人工校对
Model | Accuracy |
---|---|
ChatGLM-6B | 18.73 |
ChatGLM2-6B (base) | 33.68 |
ChatGLM2-6B | 30.00 |
所有模型均使用 few-shot CoT 的方法测试,CoT prompt 来自 https://github.com/suzgunmirac/BIG-Bench-Hard/tree/main/cot-prompts
链接:https://github.com/OpenBMB/ToolBench
ToolBench的总体思路是基于BMTools,在有监督数据中训练大型语言模型。
ToolBench仓库中提供了相关数据集、训练和评估脚本,以及在ToolBench上微调的功能模型ToolLLaMA,具体特点为:
其中单工具设置遵循LangChain提示风格,多工具设置遵循AutoGPT的提示风格。
模型回复不仅包括最终答案,还包含模型的思维链过程、工具执行和工具执行结果
支持真实世界级别的复杂性,支持多步工具调用
丰富的API,可用于现实世界中的场景,如天气信息、搜索、股票更新和PowerPoint自动化
所有的数据都是由OpenAI API自动生成并由开发团队进行过滤,数据的创建过程很容易扩展
论文:https://arxiv.org/pdf/2304.08354.pdf
包括工具增强型和工具导向型学习,并制定了一个通用的工具学习框架:从理解用户指令开始,模型应该学会把一个复杂的任务分解成几个子任务,通过推理动态地调整计划,并通过选择合适的工具有效地征服每个子任务。
https://github.com/GAIR-NLP/factool
https://github.com/zhenbench/zhenbench
东南大学:https://arxiv.org/abs/2303.07992
评估框架由两个主要步骤组成:
能力框架:刻画模型认知能力边界
ROUGE-1、ROUGE-2、ROUGE-L和 BERTScore
rouge
包不能直接使用中文文本,需要分词后使用,如果文本长度不长时可以手动修改,如“你好吗”改为“你 好 吗”from rouge import Rouge hypothesis = "the #### transcript is a written version of each day 's cnn student news program use this transcript to he lp students with reading comprehension and vocabulary use the weekly newsquiz to test your knowledge of storie s you saw on cnn student news" reference = "this page includes the show transcript use the transcript to help students with reading comprehension and vocabulary at the bottom of the page , comment for a chance to be mentioned on cnn student news . you must be a teac her or a student age # # or older to request a mention on the cnn student news roll call . the weekly newsquiz tests students ' knowledge of even ts in the news" rouger = Rouge() scores = rouger.get_scores(hypothesis, reference) [ { "rouge-1": { "f": 0.4786324739396596, "p": 0.6363636363636364, "r": 0.3835616438356164 }, "rouge-2": { "f": 0.2608695605353498, "p": 0.3488372093023256, "r": 0.20833333333333334 }, "rouge-l": { "f": 0.44705881864636676, "p": 0.5277777777777778, "r": 0.3877551020408163 } } ]
注:“领域适应能力”测试中的知识领域包括,代码编程、数学计算、创意写作、舆情分析、医学咨询、历史知识、法律信息、科学解释、翻译。
测评结果:
总得分率=生成质量70%+使用与性能20%+安全与合规*10%,评估截止日期为2023年6月30日。
评估后的大模型选择:
LMSYS、c-Eval、SuperCLUElyb、PubMedQA排行榜
[知识]和[推理]是两项可以显著区分大小模型的能力,其中
关于英文推理能力的benchmark,可以参见https://github.com/FranxYao/chain-of-thought-hub)
[1] ROUGE: A Package for Automatic Evaluation of Summaries
[2] NLP评估指标之ROUGE
[3] 大模型评测综述:A Survey on Evaluation of Large Language Models
[4] 目前大语言模型的评测基准有哪些-某乎
[5] ChatGPT作为知识库问答系统的问答能力评测
[6] C-Eval: 构造中文大模型的知识评估基准
[7] FlagEval 天秤大模型评测体系及开放平台,打造更全面的引领性评测基准
[8] SuperCLUE琅琊榜:https://www.superclueai.com/
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。