当前位置:   article > 正文

OpenCompass 大模型评测_基于opencompass下测试ds1000数据集总是卡顿是为什么

基于opencompass下测试ds1000数据集总是卡顿是为什么

参考

官方教程
B 站视频
文档
human-eval
Large Language Model Benchmarks
在这里插入图片描述

huggingface 榜单?
关系抽取、情感分析
知识语言推理
文本生成
Agent 使用工具能力
多轮对话能力

如何评测大语言模型

对模型分类

基座模型和chat
指令跟随能力不同;
基座模型里要加prompt,chat则主要和人类对话

客观评测

问答题
多选题
判断题、分类题

主观评测

使用 gpt4 代替人类进行评测。
在这里插入图片描述

提示词工程

测试模型的 prompt 敏感性。

在这里插入图片描述

主流大模型评测框架

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

实战

安装 opencompass

git clone https://github.com/open-compass/opencompass.git
cd opencompass
pip install -e .
  • 1
  • 2
  • 3

数据集准备

OpenCompass 支持的数据集主要包括两个部分

  • Huggingface 数据集: Huggingface Dataset 提供了大量的数据集,这部分数据集运行时会自动下载。
  • 自建以及第三方数据集:OpenCompass 还提供了一些第三方数据集及自建中文数据集。运行以下命令手动下载解压.(Todo, 提供自建数据集的案例)

配置——推理——评估——可视化

评估案例

每个评估任务由待评估的模型和数据集组成。

预训练模型 OPT-125M 和 OPT-350M 在 SIQA 和 Winograd 基准任务上的评估

Llama-7B

在 OpenCompass 中评估一个模型通常包括以下几个阶段:配置 -> 推理 -> 评估 -> 可视化

配置:这是整个工作流的起点。您需要配置整个评估过程,选择要评估的模型和数据集。此外,还可以选择评估策略、计算后端等,并定义显示结果的方式。
推理与评估:在这个阶段,OpenCompass 将会开始对模型和数据集进行并行推理和评估。推理阶段主要是让模型从数据集产生输出,而评估阶段则是衡量这些输出与标准答案的匹配程度。这两个过程会被拆分为多个同时运行的“任务”以提高效率,但请注意,如果计算资源有限,这种策略可能会使评测变得更慢。
可视化:评估完成后,OpenCompass 将结果整理成易读的表格,并将其保存为 CSV 和 TXT 文件。你也可以激活飞书状态上报功能,此后可以在飞书客户端中及时获得评测状态报告。

问题

OpenCompass 官方提供的数据集是怎么处理我们自己的模型能力的?能够测试带 RAG 的模型效果吗?
常用于性能比较的数据集 configs/datasets 下查找
api 是如何用于测试的?

作业

基础作业

使用 OpenCompass 评测 InternLM2-Chat-7B 模型在 C-Eval 数据集上的性能

python run.py --datasets ceval_gen --hf-path /share/temp/model_repos/internlm-chat-7b/ --tokenizer-path /share/temp/model_repos/internlm-chat-7b/ --tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True --model-kwargs trust_remote_code=True device_map='auto' --max-seq-len 2048 --max-out-len 16 --batch-size 4 --num-gpus 1 --debug
  • 1

在这里插入图片描述

进阶作业(待填坑)

使用 OpenCompass 评测 InternLM2-Chat-7B 模型使用 LMDeploy 0.2.0 部署后在 C-Eval 数据集上的性能
能不能把这个结果直接用在我们自己的实验中?

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/人工智能uu/article/detail/935403
推荐阅读
相关标签
  

闽ICP备14008679号