下的多个内文本同时读出
赞
踩
数据集源地址: C-Eval Official Repository
数据范围: 该数据集包括学科类知识测试,涵盖广泛的学科知识,例如数学、物理、化学等。
数据集大小及数据形式: 数据集包含13,948道单选题,题目均为中文。
论文地址: C-Eval: A Multi-level, Multi-task Benchmark Dataset in Chinese
评测代码地址: C-Eval Evaluation Code
评测排行榜: 可以在C-Eval的官方仓库找到详细的评测结果。
数据集源地址: 官方未提供单独的仓库,一般在相关研究论文和GitHub上可以找到具体实现和示例。
数据范围: 包含中文学科知识测试,类似于英文的MMLU,涵盖文学、历史、物理等多个领域。
数据集大小及数据形式: 具体题目数量和形式未详细披露,题目主要为中文文本。
论文地址: 暂无明确论文地址,可参考相关领域的研究论文。
评测代码地址: 具体评测代码可参见相关研究项目和GitHub仓库。
评测排行榜: 未明确提供官方排行榜,但在相关研究中会展示模型在该数据集上的表现。
数据集源地址: Gaokao Official Repository
数据范围: 涵盖高考试题,包括选择题、填空题和解答题,涉及语文、数学、英语等。
数据集大小及数据形式: 数据集大小不一,通常分为多个子集。具体数量和形式取决于每年的高考试卷。
论文地址: GAOKAO-Benchmark: Evaluating Large Language Models with Chinese Gaokao
评测代码地址: GAOKAO Evaluation Code
评测排行榜: 官方仓库和论文中可以找到模型在GaoKao数据集上的评测结果。
数据集源地址: MMLU Official Repository
数据范围: 英文学科知识测试,包含57个领域,涵盖人文科学、理工科、社科等。
数据集大小及数据形式: 包括57个领域的12,554个问题,数据主要为选择题形式。
评测代码地址: MMLU Evaluation Code
评测排行榜: 可以在官方仓库找到最新的评测结果和排行榜。
数据集源地址: GSM8K Official Repository
数据范围: 专注于小学数学问题解决,涵盖基本数学技能。
数据集大小及数据形式: 包括8,000条问题和解决方案,问题主要以文本形式给出,答案为详细的解题步骤。
评测代码地址: GSM8K Evaluation Code
评测排行榜: 官方仓库和论文中展示了模型在GSM8K数据集上的评测结果。
请注意,数据集的具体细节和最新信息可能随时间变化,请参考相关链接和官方资源获取最新的更新。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。