当前位置:   article > 正文

LLM评测数据集_llm测试集

llm测试集

1. C-Eval

2. CMMLU

  • 数据集源地址: 官方未提供单独的仓库,一般在相关研究论文和GitHub上可以找到具体实现和示例。

  • 数据范围: 包含中文学科知识测试,类似于英文的MMLU,涵盖文学、历史、物理等多个领域。

  • 数据集大小及数据形式: 具体题目数量和形式未详细披露,题目主要为中文文本。

  • 论文地址: 暂无明确论文地址,可参考相关领域的研究论文。

  • 评测代码地址: 具体评测代码可参见相关研究项目和GitHub仓库。

  • 评测排行榜: 未明确提供官方排行榜,但在相关研究中会展示模型在该数据集上的表现。

3. GaoKao

4. MMLU (Massive Multitask Language Understanding)

5. GSM8K (Grade School Math 8K)

  • 数据集源地址GSM8K Official Repository

  • 数据范围: 专注于小学数学问题解决,涵盖基本数学技能。

  • 数据集大小及数据形式: 包括8,000条问题和解决方案,问题主要以文本形式给出,答案为详细的解题步骤。

  • 论文地址Training Verifiers to Solve Math Word Problems

  • 评测代码地址GSM8K Evaluation Code

  • 评测排行榜: 官方仓库和论文中展示了模型在GSM8K数据集上的评测结果。

请注意,数据集的具体细节和最新信息可能随时间变化,请参考相关链接和官方资源获取最新的更新。

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop】
推荐阅读
相关标签
  

闽ICP备14008679号