赞
踩
官方教程
B 站视频
文档
human-eval
Large Language Model Benchmarks
huggingface 榜单?
关系抽取、情感分析
知识语言推理
长文本生成
Agent 使用工具能力
多轮对话能力
对模型分类
基座模型和chat
指令跟随能力不同;
基座模型里要加prompt,chat则主要和人类对话
问答题
多选题
判断题、分类题
使用 gpt4 代替人类进行评测。
测试模型的 prompt 敏感性。
安装 opencompass
git clone https://github.com/open-compass/opencompass.git
cd opencompass
pip install -e .
OpenCompass 支持的数据集主要包括两个部分
评估案例
每个评估任务由待评估的模型和数据集组成。
在 OpenCompass 中评估一个模型通常包括以下几个阶段:配置 -> 推理 -> 评估 -> 可视化。
配置:这是整个工作流的起点。您需要配置整个评估过程,选择要评估的模型和数据集。此外,还可以选择评估策略、计算后端等,并定义显示结果的方式。
推理与评估:在这个阶段,OpenCompass 将会开始对模型和数据集进行并行推理和评估。推理阶段主要是让模型从数据集产生输出,而评估阶段则是衡量这些输出与标准答案的匹配程度。这两个过程会被拆分为多个同时运行的“任务”以提高效率,但请注意,如果计算资源有限,这种策略可能会使评测变得更慢。
可视化:评估完成后,OpenCompass 将结果整理成易读的表格,并将其保存为 CSV 和 TXT 文件。你也可以激活飞书状态上报功能,此后可以在飞书客户端中及时获得评测状态报告。
OpenCompass 官方提供的数据集是怎么处理我们自己的模型能力的?能够测试带 RAG 的模型效果吗?
常用于性能比较的数据集 configs/datasets 下查找
api 是如何用于测试的?
使用 OpenCompass 评测 InternLM2-Chat-7B 模型在 C-Eval 数据集上的性能
python run.py --datasets ceval_gen --hf-path /share/temp/model_repos/internlm-chat-7b/ --tokenizer-path /share/temp/model_repos/internlm-chat-7b/ --tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True --model-kwargs trust_remote_code=True device_map='auto' --max-seq-len 2048 --max-out-len 16 --batch-size 4 --num-gpus 1 --debug
使用 OpenCompass 评测 InternLM2-Chat-7B 模型使用 LMDeploy 0.2.0 部署后在 C-Eval 数据集上的性能
能不能把这个结果直接用在我们自己的实验中?
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。