大模型训练数据集（一）_大模型训练数据集模版

作者：我家自动化 | 2024-05-28 13:52:44

踩

大模型训练数据集模版

1、斯坦福开源数据集

数据集名称：alpaca_data.json

https://github.com/tatsu-lab/stanford_alpaca

alpaca_data.json包含了我们用于微调Alpaca模型的52K条指令跟随数据。这个JSON文件是一个字典列表，每个字典包含以下字段： instruction: str，描述模型应执行的任务。

这52K条指令中的每一条都是独特的。

input: str，任务的可选上下文或输入。例如，当指令为“总结以下文章”时，输入为文章。大约40%的示例有输入。

output: str，由text-davinci-003生成的指令答案

2、Belle开源数据集

2-1、个性化角色对话

数据集名称：BelleGroup/generated_chat_0.4M

https://huggingface.co/datasets/BelleGroup/generated_chat_0.4M


instruction: 指令
input: 输入（本数据集均为空）
output: 输出

2-2、中文数据题数据

数据集名称：BelleGroup/school_math_0.25M

https://huggingface.co/datasets/BelleGroup/school_math_0.25M

2-3、中文指令数据

数据集名称：BelleGroup/train_2M_CN

https://huggingface.co/datasets/BelleGroup/train_2M_CN

3、Guanaco数据集

Guanaco是一个基于Meta的LLaMA 7B模型训练的指令跟随语言模型。在Alpaca模型的原始52K数据的基础上，我们添加了额外的534,530个条目，涵盖英语、简体中文、繁体中文（台湾）、繁体中文（香港）、日语、德语以及各种语言和语法任务。通过使用这些丰富的数据重新训练和优化模型，Guanaco在多语言环境中展现出了出色的性能和潜力数据集名称：Guanaco https://guanaco-model.github.io/

4、Fifefly 数据集

我们收集了23个常见的中文数据集，对于每个任务，由人工书写若干种指令模板，保证数据的高质量与丰富度，数据量为115万。数据分布如下图所示

数据分布

每条数据的格式如下，包含任务类型、输入、目标输出：


{
  "kind": "ClassicalChinese", 
  "input": "将下面句子翻译成现代文：\n石中央又生一树，高百余尺，条干偃阴为五色，翠叶如盘，花径尺余，色深碧，蕊深红，异香成烟，著物霏霏。",
  "target": "大石的中央长着一棵树，一百多尺高，枝干是彩色的，树叶有盘子那样大，花的直径有一尺宽，花瓣深蓝色，花中飘出奇异的香气笼罩着周围，如烟似雾。"
}

数据集名称：YeungNLP/firefly-train-1.1M https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M 训练数据集的token长度分布如下图所示，绝大部分数据的长度都小于600：

数据长度统计

5、alpaca_chinese_dataset

在alpaca_dataset的基础上，进行了翻译，并补充了相关中文数据

https://github.com/hikariming/alpaca_chinese_dataset

6、Chinese Open Instruction Generalist

智源开源的数据集我们提出了“中国开放指令通用项目（COIG）”，以维护一组无害、有用和多样化的中文指令语料库。主要包括

翻译通用指令语料库
考试指令语料库
人类价值对齐指令语料库
一个多轮反事实修正聊天语料库
一个leetcode指令语料库

https://huggingface.co/datasets/BAAI/COIG

7、Alpaca_GPT4

https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM

亮点是利用 GPT-4 生成的 Alpaca 数据，并做了中文的翻译

8、Alpaca-CoT

对现在的开源数据集做了相关的整理和汇总，并且加上了自己开源的CoT数据集。懒人必备

https://huggingface.co/datasets

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/我家自动化/article/detail/637851