赞
踩
2024年3月开始参加《书生·浦语大模型实战营》
https://openxlab.org.cn/models/InternLM/subject
相关链接
第一节课《书生·浦语大模型全链路开源体系》课程及 InternLM2 技术报告笔记在
https://blog.csdn.net/hu_zhenghui/article/details/137194274
第二节课《轻松玩转书生·浦语大模型趣味 Demo》课程笔记在
https://huzhenghui.blog.csdn.net/article/details/137403590
第二节课《轻松玩转书生·浦语大模型趣味 Demo》实践笔记在
https://huzhenghui.blog.csdn.net/article/details/137404579
第三节课《茴香豆:搭建你的 RAG 智能助理》课程笔记在
https://huzhenghui.blog.csdn.net/article/details/137691859
第三节课《茴香豆:搭建你的 RAG 智能助理》实践笔记在
https://huzhenghui.blog.csdn.net/article/details/137692249
第四节课《XTuner 微调 LLM:1.8B、多模态、Agent》课程笔记在
https://huzhenghui.blog.csdn.net/article/details/137951465
第四节课《XTuner 微调 LLM:1.8B、多模态、Agent》实践笔记在
https://huzhenghui.blog.csdn.net/article/details/136909890
第五节课《LMDeploy 量化部署 LLM 实践》课程笔记在
https://huzhenghui.blog.csdn.net/article/details/135050733
第五节课《LMDeploy 量化部署 LLM 实践》实践笔记在
https://huzhenghui.blog.csdn.net/article/details/136908934
第六节课《Lagent & AgentLego 智能体应用搭建》课程笔记在
https://huzhenghui.blog.csdn.net/article/details/138104975
第六节课《Lagent & AgentLego 智能体应用搭建》实践笔记在
https://huzhenghui.blog.csdn.net/article/details/138105110
这是《书生·浦语大模型实战营》第七节课《OpenCompass 大模型评测实战》课程笔记
OpenCompass
整体介绍OpenCompass
代码实战的讲解,代码实际操作的演练评测体系需增加新能力维度,如数学、复杂推理、逻辑推理、代码和智能体等,以全面评估模型性能。
在医疗、金融、法律等专业领域,评测需结合行业知识和规范,以评估模型等行业适用性。
针对中文场景,需要开发能准确评估其能力等中文评测基准,促进中文社区等大模型发展。
通过深入分析评测性能,探索模型能力形成机制,发现模型不足,研究针对性提升策略。
有的模型在评测集上训练,刷出来的分就比较高,此时的分数就不可信了。
OpenCompass
介绍OpenCompass
是一个大模型评测平台,中文名字叫司南。
OpenCompass
2.0 司南大模型评测体系开源历程OpenCompass
助力大模型产业发展和学术研究Meta
官方推荐唯一国产大模型评测体系These types of projects provide a quantitative way of looking at the models performance in simulated real world examples.
Some of these projects include the LM Evaluation Harness(used to create the
HF leaderboard), HELM, BIG-bench and OpenCompass.
100+ 评测集 50万+ 题目
首先根据模型类型的不同,划分成不同的评测类型
API
模型Base
)基座模型只是在模型训练的第一阶段做next token prediction这样的训练,没有 SFT
(有监督微调)。
这也是需要评测的一类模型,因为很多模型都是从基座模型训练。也需要设计一些方法匹配基座模型。
问
中国的首都是哪里?
回答
俄罗斯的首都是哪里?
美国的首都是哪里?
SFT
)RLHF
)例如 InterLM2
、千问等经过 SFT
(有监督微调) 和 RLHF
(人类偏好对齐)。
问
中国的首都是哪里?
答
北京
GPU
/ 推理加速卡进行本地推理API
模型根据评测的方式可以分为客观评测和主观评测。
客观评测包括客观问答题和客观选择题。
客观评测使用正则表达式,从回答中提取答案或者选项,判断是否答对。
中国的首都是哪里?
北京
北京。
中国的首都是北京。
中国的首都是北京(Beijing)。
答案是北京。
模型只需要根据问题回答选项 A
、 B
、 C
、 D
……
中国的首都是哪里?
A. 北京 B. 上海 C. 香港 D. 东京
A
A.
北京.
A. 北京
开放式问答就不能像客观问答题和客观选择题通过固定答案评测。例如:
写一首七言律诗,表达对龙年春节的期待
龙舞九天迎春到,
梅花映雪报年丰。
家家户户贴对联,
喜气洋洋乐融融。
团圆饺子包幸福,
亲情友情暖如春。
国家昌盛民安泰,
龙年春节喜无穷。
龙年春节将至时,
万家灯火照街衢。
瑞雪纷飞银装素,
爆竹声声乐无边。
亲人团聚笑声起,
美食佳肴满桌铺。
祈愿来年顺顺利,
龙腾虎跃福满门。
这就不能靠简单的规则决定。
有两种评测方式。
成本比较高,一般不会考虑。
用模型代替人工评价,例如用目前比较好的
GPT-4
模型评价模型A和模型B那首诗写得比较好。
例如
A 比 B 好/差
A 4分/ B 3分
把题目变得更加丰富,然后再去给模型做推理和评测,此时评测的结果将更加真实的反映模型的性能,避免泛泛而谈导致评测分数集中。
请写一篇关于人工智能的全面介绍。
目标过于宽泛,缺乏具体要求和细节
请为我写一篇关于人工智能的科普文章,要求涵盖其发展历程、应用领域以及对社会对影响。
目标明确,完整覆盖了主题内容
我想了解苹果。
问题内容存在歧义
请描述苹果公司的创始人史蒂夫乔布斯的职业生涯。
给出了准确的概念
告诉我怎么做蛋糕。
缺少指引
首先,我需要准备哪些材料来制作巧克力蛋糕?接下来,烘焙过程中有哪些关键步骤?
给出了思路引导
告诉我一个笑话
缺少具体细节
请创作一个关于时间旅行的幽默故事。
给出了具体的问题描述和范围
这个回答不够详细。
缺少清晰的反馈
你能更详细地解释人工智能在医疗诊断中的应用吗?
明确清晰的修改建议
示例1: “苹果发布新款iPhone” - 主题 : 科技
示例2: “美国大选结果揭晓” - 主题 : 政治
示例3: “全球气候变化影响报告” - 主题 : 环境
问题 : “科学家发现新的抗癌药物” - 主题 :
示例1: “我今天非常开心!” - 情感 : 正面
示例2: “这个产品真是糟糕透了。” - 情感 : 负面
示例3: “天气预报说今天会下雨。” - 情感 : 中性
问题 : “我对这个结果感到失望。” - 情感 :
示例1: “你好” - “Hello”
示例2: “我需要帮助” - “I need help”
示例3: “这个餐厅的食物很美味” - "The food in this restaurant is delicious "
问题 : 我今天遇到了一个老朋友。
问:自助餐厅有23个苹果。乳沟他们用了20个来做午餐并买了6个,他们现在有多少个苹果?
自助餐厅现在有49个苹果。
回答错误
问:自助餐厅有23个苹果。乳沟他们用了20个来做午餐并买了6个,他们现在有多少个苹果?让我们一步一步思考这个问题。
好的,我们来一步一步解决这个问题。
1.自助餐厅原本有23个苹果。
2.他们用了20个苹果来做午餐,所以我们需要从23个中减去20个苹果:23-20=3个苹果。
3.然后,他们又买了6个苹果,所以我们需要在剩下的苹果数量上加上这6个:3+6=9个苹果。
所以,自助餐厅现在有9个苹果。
回答正确
在一篇很长很长的文档中,在某一个位置突然插入不相关的一句话,让模型读完这本书之后,再问。如果模型能够回答出来,就证明长文本能力很好,确实是能记住在某个地方读到了这句话,是能够理解的。
CompassHub
及时收听社区的需求。
CompassRank
每个月定期更新榜单,实时更新当前模型哪些性能比较好。
CompassKit
最后优化工具,再给到社区反馈。
CompassRank
:中立全面的性能榜单100+
大语言模型已加入评测50+
多模态大模型已加入评测CompassKit
: 大模型评测全栈工具链
OpenCompass
核心代码库功能全面升级
提供多种数据污染检测方法
支持包括
GSK-8K
、MMLU
等主流数据集上的污染检测
支持近
20
个商业模型API
支持
LMDeploy
、vLLM
、LighLLM
等推理后端
用 HuggingFace
推理后端比较慢,也支持更换推理后端。
支持
1M
长度大海捞针测试支持多个主流长文本评测基准
支持基于大模型评价的主观评测
提供模型打分、模型对战多种能力
灵活切换上百种评价模型
OpenCompass
评测流水线OpenCompass
有评测流水线,这也是与其他评测体系的不同之处。
任务*
OpenCompass
会将评测请求切分为多个独立执行的任务,从而最大化利用计算资源
OpenCompass
不仅支持自定义任意模型、自定义任意数据集,还能对任务进行切分以及并行化。
有很多 GPU
时,如果任务串行,则需要很久。
OpenCompass
支持灵活的切分任务,从而高效利用资源,并行运行多个任务。
CompassKit
大模型评测全栈工具链VLMEvalKit
多模态评测工具一站式多模态评测工具,支持主流多模态模型和数据集,助力社区比较不同多模态模型在各种任务上的性能。
Code-Evaluator
代码评测工具提供基于
docker
的统一编程语言评测环境,确保代码能力评测的稳定性和可复现性。
MixtralKit
MoE
模型入门工具为
MoE
模型初学者提供学习资料、模型架构解析、推理与评测教程等入门工具。
CompassHub
: 高质量评测基准社区开源开放,共建共享的大模型评测基准社区
可以看到数据集介绍,以及数据集下的评测结果。
考察大模型在如语言、知识、理解、熟悉、代码、推理等维度上的基本功
考察大模型综合运用各类知识、理解与分析、多步推理、代码工具等来完成复杂任务的能力水平
MathBench
多层次数学能力评测基准
CriticBench
多维度的
LLM
反思能力评估基准
T-Eval
大模型细粒度工具能力评测基准
CreationBench
多场景中文创作能力评测基准
F-Eval
大模型基础能力评测基准
CIBench
代码解释器能力评测基准
MathBench
: 多层次数学能力评测基准MathBench
区分小学、初中、高中、大学四个不同层次的题目,注重梯度难度的考察。
注重基础运算(计算与小学)
基础应用和理解(初中)
复杂运算及推理(高中和大学)
中考、高考和研究生考试等
SAT
、AMC
、GRE
考试等
Circular Evaluation
问
自助餐厅已有有23个苹果。新买了6个,他们现在有多少个苹果?
A: 1个,B: 17个,C: 29个,D: 138个
问
自助餐厅已有有23个苹果。新买了6个,他们现在有多少个苹果?
A: 7个,B: 29个,C: 138个,D: 1个
问
自助餐厅已有有23个苹果。新买了6个,他们现在有多少个苹果?
A: 29个,B: 138个,C: 1个,D: 7个
问
自助餐厅已有有23个苹果。新买了6个,他们现在有多少个苹果?
A: 138个,B: 1个,C: 17个,D: 29个
CIBench
: 代码解释器能力评测基准能力 | Python 库 |
---|---|
数据读取与操作 | Pandas |
数据可视化 | Matplotlib Seaborn |
机器学习 | Scikit-learn LightGBM |
深度学习 | PyTorch TensorFlow |
自然语言处理 | NLTK |
计算机视觉 | OpenCV |
数学与统计 | SciPy |
T-Eval
: 大模型细粒度工具能力评测基准全面且细粒度的评测方式
高质量的评测数据
剖析模型的工具调用能力
OpenFinData
全场景金融评测基准
OpenFinData
金融全场景评测数据集介绍
LawBench
大模型司法能力基准
LawBench
评估大语言模型 (LLMs
) 在高度专业化法律领域的综合评估基准
MedBench
中文医疗大模型评测基准MedBench
MedBench
致力于打造一个科学、公平且严谨的中文医疗大模型评测体系及开放平台。我们基于医学权威标准,不断更新维护高质量的医学数据集,全方位多维度量化模型在各个医疗维度的能力。
SecBench
网络安全评测基准Tencent
腾讯
SecBench
网络安全大模型评测
OpenCompass
司南大模型评测体系GitHub
项目HuggingFace
主页百家争鸣,百花齐放。
LeetCode
题目编号而不提供具体信息,大型语言模型也能够正确输出答案,这暗示着训练数据可能存在污染现象。OpenCompass
介绍上海人工智能实验室科学家团队正式发布了大模型开源开放评测体系 “司南” ( OpenCompass
2.0),用于为大语言模型、多模态模型等提供一站式评测服务。其主要特点如下:
提供公平、公开、可复现的大模型评测方案
五大维度设计,提供
70+
个数据集约40
万题的的模型评测方案,全面评估模型能力
已支持
20+
HuggingFace
及API
模型
一行命令实现任务分割和分布式评测,数小时即可完成千亿模型全量评测
支持零样本、小样本及思维链评测,结合标准型或对话型提示词模板,轻松激发各种模型最大性能
想增加新模型或数据集?想要自定义更高级的任务分割策略,甚至接入新的集群管理系统?
OpenCompass
的一切均可轻松扩展!
本算法库的主要评测对象为语言大模型与多模态大模型。我们以语言大模型为例介绍评测的具体模型类型。
一般是经过海量的文本数据以自监督学习的方式进行训练获得的模型(如
OpenAI
的GPT-3
,Meta
的LLaMA
),往往具有强大的文字续写能力。
一般是在的基座模型的基础上,经过指令微调或人类偏好对齐获得的模型(如
OpenAI
的ChatGPT
、 上海人工智能实验室的书生·浦语),能理解人类指令,具有较强的对话能力。
大模型评测所涉及的主要模型种类,
OpenCompass
以基座模型和对话模型作为重点评测对象。
OpenCompass
从本方案从通用能力和特色能力两个方面来进行评测维度设计。在模型通用能力方面,从语言、知识、理解、推理、安全等多个能力维度进行评测。在特色能力方面,从长文本、代码、工具、知识增强等维度进行评测。
OpenCompass
采用客观评测与主观评测两种评测方式。客观评测能便捷地评估模型在具有确定答案(如选择,填空,封闭式问答等)的任务上的能力,主观评测能评估用户对模型回复的真实满意度,OpenCompass
采用基于模型辅助的主观评测和基于人类反馈的主观评测两种方式。
OpenCompass
提供丰富的功能支持自动化地开展大语言模型的高效评测。包括分布式评测技术,提示词工程,对接评测数据库,评测榜单发布,评测报告生成等诸多功能。
为准确、全面、系统化地评估大语言模型的能力, OpenCompass
从通用人工智能的角度出发,结合学术界的前沿进展和工业界的最佳实践,提出一套面向实际应用的模型能力评价体系。 OpenCompass
能力维度体系涵盖通用能力和特色能力两大部分。
OpenCompass
采取客观评测与主观评测相结合的方法。针对具有确定性答案的能力维度和场景,通过构造丰富完善的评测集,对模型能力进行综合评价。针对体现模型能力的开放式或半开放式的问题、模型安全问题等,采用主客观相结合的评测方式。
针对具有标准答案的客观问题,我们可以通过使用定量指标比较模型的输出与标准答案的差异,并根据结果衡量模型的性能。同时,由于大语言模型输出自由度较高,在评测阶段,我们需要对其输入和输出作一定的规范和设计,尽可能减少噪声输出在评测阶段的影响,才能对模型的能力有更加完整和客观的评价。为了更好地激发出模型在题目测试领域的能力,并引导模型按照一定的模板输出答案, OpenCompass
采用提示词工程 ( prompt engineering
)和语境学习( in-context learning
)进行客观评测。 在客观评测的具体实践中,我们通常采用下列两种方式进行模型输出结果的评测:
该评测方式基于将问题与候选答案组合在一起,计算模型在所有组合上的困惑度(
perplexity
),并选择困惑度最小的答案作为模型的最终输出。例如,若模型在问题? 答案1
上的困惑度为0.1
,在问题? 答案2
上的困惑度为0.2
,最终我们会选择答案1
作为模型的输出。
该评测方式主要用于生成类任务,如语言翻译、程序生成、逻辑分析题等。具体实践时,使用问题作为模型的原始输入,并留白答案区域待模型进行后续补全。我们通常还需要对其输出进行后处理,以保证输出满足数据集的要求。
语言表达生动精彩,变化丰富,大量的场景和能力无法凭借客观指标进行评测。针对如模型安全和模型语言能力的评测,以人的主观感受为主的评测更能体现模型的真实能力,并更符合大模型的实际使用场景。 OpenCompass
采取的主观评测方案是指借助受试者的主观判断对具有对话能力的大语言模型进行能力评测。在具体实践中,我们提前基于模型的能力维度构建主观测试问题集合,并将不同模型对于同一问题的不同回复展现给受试者,收集受试者基于主观感受的评分。由于主观测试成本高昂,本方案同时也采用使用性能优异的大语言模拟人类进行主观打分。在实际评测中,本文将采用真实人类专家的主观评测与基于模型打分的主观评测相结合的方式开展模型能力评估。 在具体开展主观评测时, OpenComapss
采用单模型回复满意度统计和多模型满意度比较两种方式开展具体的评测工作。
在 OpenCompass
中评估一个模型通常包括以下几个阶段:配置 -> 推理 -> 评估 -> 可视化。
这是整个工作流的起点。您需要配置整个评估过程,选择要评估的模型和数据集。此外,还可以选择评估策略、计算后端等,并定义显示结果的方式。
在这个阶段,
OpenCompass
将会开始对模型和数据集进行并行推理和评估。推理阶段主要是让模型从数据集产生输出,而评估阶段则是衡量这些输出与标准答案的匹配程度。这两个过程会被拆分为多个同时运行的“任务”以提高效率,但请注意,如果计算资源有限,这种策略可能会使评测变得更慢。
评估完成后,
OpenCompass
将结果整理成易读的表格,并将其保存为CSV
和TXT
文件。你也可以激活飞书状态上报功能,此后可以在飞书客户端中及时获得评测状态报告。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。