19个大模型常用的评估数据集和训练数据集汇总_大模型训练数据集

作者：从前慢现在也慢 | 2024-04-05 22:27:23

踩

大模型训练数据集

19个大模型常用的评估数据集和训练数据集汇总

名称	简介	测试（数据量）	训练（数据量）	地址
CEval	中文选择题测试，包括中学、高中、大学的多个学科	√，13948	×	https://huggingface.co/datasets/ceval/ceval-exam
GSM8K	小学数学题目，通过最后的数字检测正确与否	√，1320	√，8790	https://huggingface.co/datasets/gsm8k
MMLU	英文选择题测试，包括中学、高中、大学的多个学科	√，14042	√，99842	https://huggingface.co/datasets/cais/mmlu
TruthQA	模型幻觉问题，通过关键字和选择题检测是否正确	*√，8172**	×	https://huggingface.co/datasets/truthful_qa
glue	通用的语言理解和评估的数据集，判断前提是否可以支撑后面的假设和判断句子是否正确，以此检测模型的语言理解能力。包括了多个子数据集，有些子数据集有训练数据，有些没有	√，——	√，——	https://huggingface.co/datasets/glue
OpenHermes-2.5	英文对话数据集，用于提升大模型的能力	×	√，1000000	https://huggingface.co/datasets/teknium/OpenHermes-2.5
LongBench	英文长文本评估集，给出一段长文本和一个问题，通过关键词判断是否回答正确	√，——	×	https://huggingface.co/datasets/THUDM/LongBench
Bigbench	英文多选题，选择文本中隐含的谚语	√，600	√，2400	https://huggingface.co/datasets/tasksource/bigbench
SQuAD	斯坦福问答数据集（SQuAD）是一个阅读理解数据集，由一组维基百科文章上的众筹者提出的问题组成，其中每个问题的答案都是相应阅读文章中的一段文字或一段时间，或者问题可能无法回答。通过关键词判断是否回答正确	√，106000	√，876000	https://huggingface.co/datasets/squad
databricks-dolly-15k-curated-en	一个英文对话数据集，与其他对话数据不同的是提供了原数据和改进的版本。该项目的目的是纠正指令、输入和响应，以确保它们具有最高的质量，并且与它们所属的任务类别相匹配。所有三个文本都应该清晰并包含真实信息。此外，回答应尽可能完整但简洁。	×	√，15000	https://huggingface.co/datasets/argilla/databricks-dolly-15k-curated-en
WizardLM_evol_instruct_V2_196k	使用Evol-Instruct让chatgpt自生产的对话数据	×	√，143000	https://huggingface.co/datasets/WizardLM/WizardLM_evol_instruct_V2_196k
ultrachat\_200k	借助chatgpt生成的对话数据	√，51400	√，464000	https://huggingface.co/datasets/HuggingFaceH4/ultrachat\_200k
emotion	情感数据集，给出一句话判断其包含的情感，例如，sadness，anger，fear等	√，2000	√，16000	https://huggingface.co/datasets/dair-ai/emotion
GPT4-LLM-Cleaned	借助GPT-4生成的英文对话数据	×	√，54600	https://huggingface.co/datasets/teknium/GPT4-LLM-Cleaned
LLaVA-Instruct-150K	LLaVA多模态对话数据，基于图片的聊天	×	√，150000	https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K
midjourney-v5-202304-clean	文生图的多模态数据，爬取自midjourney v5的2023年4月的数据	×	√，1701420	https://huggingface.co/datasets/wanng/midjourney-v5-202304-clean
diffusiondb	文本生成图片数据，包含prompt和image	×	√，16000000	https://huggingface.co/datasets/poloclub/diffusiondb
apps	代码生成数据集，用于检测模型的代码生成能力	√，5000	√，5000	https://huggingface.co/datasets/codeparrot/apps
apps	代码生成数据集，用于检测模型的代码生成能力	√，5000	√，5000	https://huggingface.co/datasets/codeparrot/apps
alpaca-cleaned	Alpaca是由OpenAI的text-davinci-003引擎生成的包含52，000条指令和演示的数据集。这些指令数据可用于对语言模型进行指令调整，使语言模型更好地跟随指令。alpaca-cleaned是斯坦福大学发布的原始数据集的清理版本。	×	√，52000	https://huggingface.co/datasets/tatsu-lab/alpaca

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/368251?site