当前位置:   article > 正文

干货!大模型时代一定要收藏的 20 个LLM 中文数据集_大模型中文数据集

大模型中文数据集

自 ChatGPT 重磅推出以来,大语言模型 (large language Model, LLM) 以其卓越的学习能力在各个领域引起轰动。大模型的训练和调优离不开优质庞大的数据支撑,精心构建的数据集不仅为大模型提供了充分的燃料,还为大模型在垂直领域的应用和性能提升提供了可能。

本文整理了一些适用于大模型训练调优的热门中文公开数据集(按照首字母 A-Z 顺序排列),以供大家了解和使用。

温馨提示:
本文列举的所有数据集,均可在 http://OpenBayes.com 平台一键 Input 直接在模型训练和部署中使用。

链接直达:
https://openbayes.com/console/public/datasets

  1. Ape210K 中国小学水平数学问题

* 发布机构:猿辅导 AI Lab、西北大学

* 相关标签:算术任务、文本生成

* 直接使用:https://1lh.cc/_nxUVA

Ape210K 是一个新的大规模和模板丰富的数学单词问题数据集,包含 210k 个中国小学水平的数学问题。每个问题都包含最佳答案和得出答案所需的方程式。

2. Belle 数据集

* 发布机构:讯飞科大、CCL、HFL

* 相关标签:文本生成、中文

* 直接使用:https://1lh.cc/owa2LS

本数据集使用了 1,000 个样本的评估集来评估各种模型,涵盖 9 个真实场景,包含约350 万条由BELLE项目生成的中文指令数据。

3. Chinese Squad 中文机器阅读理解数据集

* 相关标签:抽取式问答、智能问答

* 直接使用:https://1lh.cc/WfCggF

本数据集是中文机器阅读理解数据集,通过机器翻译加人工校正的方式从原始 Squad 转换而来,其中包括 V1.1 和 V2.0。

4. CMRC 2018 中文机器阅读理解评测数据集

* 发布机构:讯飞科大、CCL、HFL

* 相关标签:文本生成

* 直接使用:https://1lh.cc/p1Mcg4

本数据集包含第二届「讯飞杯」中文机器阅读理解评测 (CMRC 2018) 所使用的数据,并且已被计算语言学顶级国际会议 EMNLP 2019 录用。

5. CrossWOZ 任务导向对话数据集

* 发布机构:清华大学、BNRIST

* 相关标签:问答数据集、中文

* 直接使用:https://1lh.cc/HmY23E

CrossWOZ 是首个面向任务的大型中文跨域 Wizard-of-Oz 导向数据集。它包含 5 个场景(景点、酒店、餐馆、地铁、出租)的 6k 个对话和 102k 个句子。此外,语料库包含丰富的对话状态标注和用户与系统双方的对话行为。

6. Delta 阅读理解数据集 (DRCD)

* 发布机构:台达研究中心、台达电子

* 相关标签:文本检测、机器学习

* 直接使用:https://1lh.cc/91VlEW

台达阅读理解资料集 Delta Reading Comprehension Dataset (DRCD) 属于通用领域繁体中文机器阅读理解资料集。该数据集旨在成为标准的中文机器阅读理解数据集,包含来自 2,108 篇维基百科文章的 10,014 个段落和由标注人员生成的 30,000 多个问题。

7. Douban Conversation Corpus 豆瓣会话语料库

* 发布机构:北京航空航天大学、南开大学、MSRA

* 相关标签:问答解析、自然语言处理

* 直接使用:https://1lh.cc/W4K31x

本数据集包括一个训练数据集、一个开发集和一个基于检索的聊天机器人的测试集。测试数据包含 1000 个对话上下文,对于每个上下文,创建了 10 个响应作为候选。

8. DuReader 问答数据集

* 发布机构:百度

* 相关标签:问答数据集、智能问答

* 直接使用:https://1lh.cc/p_pDHw

DuReader 是关注于机器阅读理解领域的基准数据集和模型,主要用于智能问答任务。

9. E-KAR 中文版 可解释知识密集型类比推理基准

* 发布机构:复旦大学、ByteDance AI Lab、Brain Technologies, Inc.

* 相关标签:文本生成、自然语言处理

* 直接使用:https://1lh.cc/Q7KOS2

E-KAR 全称 Benchmark for Explainable Knowledge-intensive Analogical Reasoning,是一个可解释知识密集型类比推理的基准。现有的词语类比测试基准并不能揭示神经模型类比推理的底层过程,研究人员认为具有推理能力的模型应以正确的理由作为基本信念,因此提出了首个知识性可解释类比推理基准 (E-KAR)。基准数据集包括来自公务员考试的 1,655 个(中文)和 1,251 个(英文)问题, 解决这些问题需要大量的背景知识。

10. FCGEC 中文语法检错纠错数据集

* 发布机构:浙江大学、华为

* 相关标签:文本检测

* 直接使用:https://1lh.cc/12Fvbo

FCGEC 全称 Fine-Grained Corpus for Chinese Grammatical Error Correction,是一个大规模母语使用者的多参考文本纠检错语料,用于训练以及评估纠检错模型系统,数据来源主要是小初高中学生的病句试题以及新闻聚合网站。

11. KdConv 中文多领域会话数据集

* 发布机构:清华大学

* 相关标签:文本生成

* 直接使用:https://1lh.cc/fGy-ne

KdConv 是一个中文多领域知识驱动的对话数据集,将多轮对话中的主题建立在知识图谱上。KdConv 包含来自三个领域(电影、音乐和旅行)的 4.5K 个对话,以及平均转数为 19.0 的 86k 个话语。适用于对多转向人类对话中的知识交互进行建模,包括知识规划、知识基础、知识适应等。

12. Math23K 数学单词数据集

* 发布机构:Tencent AI Lab

* 相关标签:语料库、数学问题

* 直接使用:https://1lh.cc/woeJn4

Math23K 全称 Math23K for Math Word Problem Solving,是为解决数学单词问题而创建的数据集,包含从互联网上爬取的 23,162 个中文问题。

13. MedDialog 中文医患对话数据集

* 相关标签:医学研究、对话数据集

* 直接使用:https://1lh.cc/n6fVqp

MedDialog 是大规模的医疗对话数据集,其中包含医生和患者之间的 110 万条对话和 400 万条话语。

14. ODSQA 开放域口语智能问答数据集

* 发布机构:台湾大学

* 相关标签:智能问答、自然语言处理

* 直接使用:https://1lh.cc/bGu3b7

ODSQA 数据集是用于中文问答的口语数据集,它包含来自 20 位不同演讲者的 3,000 多个问题。

15. RedGPT 自动生成事实型对话数据集

* 相关标签:文本生成、自然语言处理

* 直接使用:https://1lh.cc/tXVJHp

RedGPT 全称 Reference-Enlightened-Dialogue by GPT and for GPT。事实正确性是 ChatGPT 的一大薄弱环节,想要提升事实正确性,可以标注大量的事实型对话数据用于微调 GPT 模型。为避免人工标注的昂贵成本,研究人员提出一种自动生成事实型对话的方法,并公开部分数据 (RedGPT-Dataset-V1-CN),其中共包含 5 万条中文多轮对话。

16. The United Nations Parallel Corpus 联合国平行语料库 v1.0

* 发布机构:清华大学、BNRIST

* 相关标签:问答数据集、中文

* 直接使用:https://1lh.cc/HmY23E

CrossWOZ 是首个面向任务的大型中文跨域 Wizard-of-Oz 导向数据集。它包含 5 个场景(景点、酒店、餐馆、地铁、出租)的 6k 个对话和 102k 个句子。此外,语料库包含丰富的对话状态标注和用户与系统双方的对话行为。

17. VQA 视觉问答数据集

* 相关标签:视觉问答、问答数据集

* 直接使用:https://1lh.cc/PW9geI

深度学习的发展促进了多模态学习相关任务的解决。视觉问答 (VQA) 是其中极具挑战的例子,它要求从图像中进行高阶场景的解释 (interpretation),并结合相关的问答语言进行建模。给定一张图像和关于该图像的自然语言问题,任务是提供一个准确的自然语言答案。这是一个使用 Keras 实现的端到端系统,旨在完成这一任务。

18. WebQA v1.0 百度中文问答数据集

* 发布机构:百度

* 相关标签:深度学习、智能问答

* 直接使用:https://1lh.cc/vgk2IP

这是百度于 2016 年开源的数据集,数据来自于百度知道。格式为一个问题多篇意思基本一致的文章,分为人为标注以及浏览器检索。

19. XiaChuFang Recipe Corpus 下厨房食谱语料库

* 相关标签:文本识别、文本检测

* 直接使用:https://1lh.cc/4jaL8b

本食谱语料库包含 1,520,327 种中国食谱。其中,1,242,206 食谱属于 30,060 菜肴。一道菜平均有 41.3 个食谱。食谱由 415,272 位作者贡献。其中,最有生产力的作者上传 5,394 食谱。

20. XQuAD 跨语言问答数据集

* 发布机构:讯飞科大、CCL、HFL

* 相关标签:问答解析、阅读理解

* 直接使用:https://1lh.cc/myJ9KE

XQuAD(跨语言问答数据集)是一个用于评估跨语言问答性能的基准数据集。该数据集由 SQuAD v1.1(Rajpurkar 等,2016)开发集中的 240 段落和 1,190 个问题-答案对的子集组成。


一键 Input 上述数据集

OpenBayes 贝式计算平台现已支持数据集一键绑定,只需在创建容器期间一键 Input,即可将目标数据集绑定到对应容器,省去了繁琐的下载和上传过程,也不会占用用户个人的存储空间。

视频教程参考:

【OpenBayes 官方教程】数据读写绑定功能_哔哩哔哩_bilibili​www.bilibili.com/video/BV1MC4y1A72S/?spm_id_from=333.337.search-card.all.click​编辑

详细文档参见:https://1lh.cc/v2ao4q

此外,OpenBayes 平台还提供超过 500 个精选公共数据集、模型、教程等优质资源,这些数据集已经整合到「公共资源」模块中,持续更新中~

现在体验极速绑定,请访问 https://openbayes.com/console/login

还没注册过OpenBayes 的新用户使用专属邀请链接注册,可获得 60 分钟 RTX 4090 使用时长哦~支持累积,永久有效:https://openbayes.com/console/signup?r=GraceXiii_W8qO

还想了解关于 OpenBayes 的哪些教程,欢迎留言或通过「OpenBayes001」告诉我们~

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/2023面试高手/article/detail/720405
推荐阅读
相关标签
  

闽ICP备14008679号