OpenCompass 大模型评测_基于opencompass下测试ds1000数据集总是卡顿是为什么

作者：人工智能uu | 2024-08-06 02:28:43

踩

基于opencompass下测试ds1000数据集总是卡顿是为什么

文章目录

参考
如何评测大语言模型
客观评测
主观评测
- 提示词工程
主流大模型评测框架
实战
作业
- 基础作业
- 进阶作业(待填坑)

参考

官方教程
 B 站视频
 文档
 human-eval
Large Language Model Benchmarks
在这里插入图片描述

huggingface 榜单？
关系抽取、情感分析
知识语言推理
长文本生成
Agent 使用工具能力
多轮对话能力

如何评测大语言模型

对模型分类

基座模型和chat
指令跟随能力不同；
基座模型里要加prompt，chat则主要和人类对话

客观评测

问答题
多选题
判断题、分类题

主观评测

使用 gpt4 代替人类进行评测。
在这里插入图片描述

提示词工程

测试模型的 prompt 敏感性。

在这里插入图片描述

主流大模型评测框架

在这里插入图片描述

实战

安装 opencompass

git clone https://github.com/open-compass/opencompass.git
cd opencompass
pip install -e .
1
2
3

数据集准备

OpenCompass 支持的数据集主要包括两个部分

Huggingface 数据集: Huggingface Dataset 提供了大量的数据集，这部分数据集运行时会自动下载。
自建以及第三方数据集：OpenCompass 还提供了一些第三方数据集及自建中文数据集。运行以下命令手动下载解压.(Todo, 提供自建数据集的案例)

配置——推理——评估——可视化

评估案例

每个评估任务由待评估的模型和数据集组成。

预训练模型 OPT-125M 和 OPT-350M 在 SIQA 和 Winograd 基准任务上的评估

Llama-7B

在 OpenCompass 中评估一个模型通常包括以下几个阶段：配置 -> 推理 -> 评估 -> 可视化。

配置：这是整个工作流的起点。您需要配置整个评估过程，选择要评估的模型和数据集。此外，还可以选择评估策略、计算后端等，并定义显示结果的方式。
推理与评估：在这个阶段，OpenCompass 将会开始对模型和数据集进行并行推理和评估。推理阶段主要是让模型从数据集产生输出，而评估阶段则是衡量这些输出与标准答案的匹配程度。这两个过程会被拆分为多个同时运行的“任务”以提高效率，但请注意，如果计算资源有限，这种策略可能会使评测变得更慢。
可视化：评估完成后，OpenCompass 将结果整理成易读的表格，并将其保存为 CSV 和 TXT 文件。你也可以激活飞书状态上报功能，此后可以在飞书客户端中及时获得评测状态报告。

问题

OpenCompass 官方提供的数据集是怎么处理我们自己的模型能力的？能够测试带 RAG 的模型效果吗？
常用于性能比较的数据集 configs/datasets 下查找
api 是如何用于测试的？

作业

基础作业

使用 OpenCompass 评测 InternLM2-Chat-7B 模型在 C-Eval 数据集上的性能

python run.py --datasets ceval_gen --hf-path /share/temp/model_repos/internlm-chat-7b/ --tokenizer-path /share/temp/model_repos/internlm-chat-7b/ --tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True --model-kwargs trust_remote_code=True device_map='auto' --max-seq-len 2048 --max-out-len 16 --batch-size 4 --num-gpus 1 --debug
1

在这里插入图片描述

进阶作业(待填坑)

使用 OpenCompass 评测 InternLM2-Chat-7B 模型使用 LMDeploy 0.2.0 部署后在 C-Eval 数据集上的性能
能不能把这个结果直接用在我们自己的实验中？

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/人工智能uu/article/detail/935403