搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
知新_RL
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
去了字节跳动,才知道年薪50W的测试有这么多?_字节跳动年薪50万是什么水平
2
一个多合一的 AI 大模型客户端,支持本地部署大模型,实现大模型自由_jan.ai 训练自己数据
3
线性表顺序存储结构的基本实现_通过线性表结构实现电话本模拟程序。编程实现顺序存储结构中的基本操作的实现
4
微信小程序真机调试和预览无法进入request_真机调试登录不上
5
使用Postman创建Mock Server_postman创建服务端
6
Pycharm连接远程服务器进行模型训练——以YOLOv8为例_pycharm autodl yolov8
7
git干获,从安装到上传项目(详细)_git 安装并上传文件
8
java 表单重复提交,进行幂等性控制,防止_java接口幂等性,防止重复提交
9
M系列 Mac安装配置Homebrew_mac homebrew
10
ChatGPT完美平替!Jan AI:属于你的本地大语言模型!_jan – 免费的 chatgpt 开源替代
当前位置:
article
> 正文
大语言模型常见任务及评测数据集汇总(一):70 余个数据集!_大语言模型数据库有哪些
作者:知新_RL | 2024-05-07 00:26:06
赞
踩
大语言模型数据库有哪些
1. 文本分类
1.1. 中文文本分类数据集:
THUCNews
:清华大学推出的中文新闻文本数据集,包含了74万篇新闻文章,覆盖了10个类别。
LCQMC
:哈尔滨工业大学发布的数据集,主要用于中文句子匹配任务,也常用于文本分类。
BQ Corpus
:同样用于中文句子匹配,也可用于文本分类。
1.2. 英文文本分类数据集:
IMDb
:包含50,000条影评数据,分为正面和负面两类,常用于情感分析。
20 Newsgroups
:包含约20,000条新闻组文档,分为20个类别。
AG News
:包含超过1百万条新闻文章,分为4个类别。
Yahoo! Answers
:包含约1.4百万条来自Yahoo! Answers的数据,分为10个类别。
DBpedia
:从维基百科抽取的14个类别的数据集,包含560,000个训练样本和70,000个测试样本。
1.3. 多语言文本分类数据集:
MultiNLI
:包含433,000个英文句子对,用于自然语言推理任务,也适用于文本分类。
XNLI
:扩展的MultiNLI,包含15种语言的100,000个句子对。
2. 机器翻译
2.1. 英文-中文翻译数据集:
WMT’14 English-French
:广泛使用的英文-法语翻译数据集,包含了约40亿个词对。
WMT’16 English-German
:另一个广泛使用的英文-德语翻译数据集,包含了约40亿个词对。
WMT’17 English-Chinese
:英文-中文翻译数据集,包含了约20亿个词对。
IWSLT
:国际工作坊口语翻译评测(International Workshop on Spoken Language Translation)提供的数据集,包含多个语言对的翻译数据,其中包括英文-中文。
2.2. 其他语言对翻译数据集:
WMT’14 English-Russian
:英文-俄语翻译数据集,包含了约20亿个词对。
WMT’14 English-Spanish
:英文-西班牙语翻译数据集,包含了约20亿个词对。
WMT’14 English-Czech
:英文-捷克语翻译数据集,包含了约10亿个词对。
WMT’14 English-Hebrew
:英文-希伯来语翻译数据集,包含了约5亿个词对。
2.3. 多语言翻译数据集:
TED Talks
:包含多种语言对的翻译数据,主要来自于TED演讲的翻译。
ParaCrawl
:一个大规模的多语言平行语料库,包含了多种欧洲语言的翻译数据。
3. 问答系统
SQuAD (Stanford Question Answering Dataset)
:这是一个非常流行的问答数据集,包含了10万多个问题,这些问题是由人工针对维基百科文章提出的。每个问题都有一个对应的答案,这个答案是从相应的文章中抽取的。
MS MARCO (Microsoft Machine Reading Comprehension)
:这个数据集由微软创建,包含了10万多个真实用户的查询,以及从网上爬取的相关文档。这些查询和文档被用来创建问题和答案对。
DuReader
:这是由百度创建的一个大规模中文阅读理解数据集,包含了30万多个真实用户提出的问题,以及从网上爬取的相关文档。
CoQA (Conversational Question Answering)
:这是一个对话式问答数据集,包含了11万个问题和答案对。这些问题和答案是由人工针对故事文章进行的。
TriviaQA
:这个数据集包含了95万个问题,这些问题是由TriviaQA的作者从Trivia和Jeopardy等问答游戏中提取的。每个问题都有一个对应的答案,这个答案是从一个大的、无结构的文本语料库中抽取的。
Natural Questions
:这是一个真实世界的问题数据集,包含了30万个真实用户在谷歌搜索引擎中提出的问题。这些问题和答案都是由人工标注的。
WebQA
:这是一个中文的问答数据集,包含了42万个问题和答案对。这些问题和答案都是从互联网上爬取的。
4. 情感分析
IMDb
:这是一个广泛使用的电影评论数据集,包含了25,000条训练数据和25,000条测试数据,分为正面和负面两类。
Twitter
:Twitter情感分析数据集通常包含大量的推文,这些推文被标注为正面、负面或中性情绪。例如,Sentiment140数据集包含了160,000条带情感标签的推文。
Amazon Product Reviews
:这个数据集包含了数百万条亚马逊产品评论,每条评论都有一个评分和文本内容,可以用于二分类或多分类情感分析。
Yelp Reviews
:Yelp提供的数据集包含了大量的用户评论,这些评论有关餐馆、服务和其他业务,每条评论都有一个评分,可以用于情感分析。
Stanford Sentiment Treebank (SST)
:这是一个基于句子解析树的情感分析数据集,包含了11,855条句子,每个单词都被标注了情感标签。
Multi-domain Sentiment Dataset (MV)
:这个数据集包含了多个领域的评论,如书籍、DVD、电子产品等,每条评论都有一个情感评分。
Customer Review Dataset
:这是一个包含多种产品类别的顾客评论数据集,可以用于多分类情感分析。
EmoInt
:这是一个针对情感强度识别的数据集,包含了12,000条带有情感强度标签的推文。
Irony Detection Datasets
:这些数据集专门用于讽刺和幽默的检测,如SemEval任务中的讽刺检测子任务。
Financial Sentiment Datasets
:这些数据集包含了财经新闻和报告,用于分析市场情绪和趋势。
5.
文本生成
BookCorpus
:一个从网络上抓取的包含多种领域书籍的文本数据集,常用于语言模型的预训练。
Wikipedia
:维基百科的英文或其它语言版本,包含了大量的知识性文本,是训练语言模型的重要数据源。
Common Crawl
:一个庞大的网络爬取数据集,包含了互联网上大量的网页文本,用于训练大规模的语言模型。
WebText
:由OpenAI创建的一个高质量的网络文本数据集,通过过滤和清洗Common Crawl数据得到。
Gutenberg电子书语料库
:一个包含超过60,000本免费电子书的语料库,可以用来训练文本生成模型。
arXiv
:一个包含物理学、数学、计算机科学等领域预印本论文的数据集,用于训练特定领域的文本生成模型。
OpenWebText
:一个开源的、经过清洗的网页文本数据集,从Reddit上分享的链接中提取得到。
StoryCloze
:一个用于故事理解和生成的数据集,包含了大量的故事句子和结尾。
WritingPrompts
:一个包含创意写作提示和用户生成的故事的数据集,常用于文本生成任务。
Yahoo! Answers Comprehensive Questions and Answers
:一个包含用户提问和回答的数据集,可以用于训练对话和问答生成模型。
6.
文本相似度
SNLI (Stanford Natural Language Inference)
:虽然这是一个用于自然语言推理的数据集,但它也常用于文本相似度任务,因为它包含了大量的句子对,并标注了它们之间的关系(矛盾、中立、蕴含)。
STS (Semantic Textual Similarity)
:这是一个广泛使用的文本相似度数据集,包含了多个子集,如STS Benchmark、STS 2012-2016等。这些数据集提供了句子对的相似度评分,通常是在1到5的范围内。
MSR Paraphrase Corpus
:这个数据集包含了大量的句子对,每个句子对都被标注为是否是 paraphrase。
Quora Question Pairs
:这个数据集包含了来自Quora的问题对,每个问题对都被标注为是否是相同的。
Twitter URL Correlation
:这个数据集包含了来自Twitter的URL和推文对,每个对都被标注为是否是相关的。
SICK (Sentences Involving Compositional Knowledge)
:这是一个包含了句子对的数据集,每个句子对都有一个相似度评分和相关性的标签。
Semantic Evaluation (SemEval) Shared Tasks
:SemEval每年都会举办共享任务,其中就包括文本相似度任务,因此会产生大量的数据集。
7.
摘要生成
CNN/Daily Mail
:这是一个广泛使用的数据集,包含了新闻文章和它们的摘要。每个文章都被提取了若干个关键信息,并生成了一个简洁的摘要。
Gigaword
:这个数据集包含了大量的新闻文章标题和它们的摘要。摘要通常是由文章的第一句话组成的。
NYT (New York Times) Annotated Corpus
:这个数据集包含了来自纽约时报的文章和它们的摘要。这些摘要通常是由专业编辑撰写的。
PubMed Abstracts
:这是一个包含科学论文摘要的数据集,通常用于生成科学文献的摘要。
arXiv Abstracts
:这个数据集包含了物理学、数学、计算机科学等领域预印本论文的摘要。
LCSTS (Large Scale Chinese Short Text Summarization)
:这是一个大规模的中文短文本摘要数据集,包含了大量的新闻标题和摘要。
XSum (Extreme Summarization)
:这是一个极端摘要数据集,其中的摘要是由单一句子组成的,通常是从文章中提取的最关键的信息。
WikiHow
:这个数据集包含了来自WikiHow网站的文章和它们的摘要。这些文章通常包含了如何做某事的步骤。
Amazon Reviews
:这个数据集包含了亚马逊产品评论,可以用于生成产品评论的摘要。
Reddit TIFU Stories
:这个数据集包含了Reddit上的"TIFU"(Today I Fucked Up)故事,可以用于生成故事的摘要。
7.
语音识别
LibriSpeech
:这是一个包含大量英文有声书籍的语料库,常用于训练和评估英文语音识别系统。
VoxForge
:这是一个开源的语音识别数据集,包含了多种语言的语音数据,用户可以自由下载和使用。
TIMIT
:这是一个广泛使用的英文语音识别数据集,包含了大量的语音样本和对应的文本转录。
WSJ (Wall Street Journal)
:这是一个包含-wsj杂志文章语音录音的数据集,常用于评估语音识别系统。
CHiME (Cambridge Hindi Medium English)
:这是一个用于研究在噪声环境下语音识别的数据集,包含了带噪声的英文语音数据。
Switchboard
:这是一个包含电话对话录音的数据集,常用于训练和评估对话语音识别系统。
Common Voice
:这是一个由Mozilla发起的开源项目,旨在收集全球范围内的语音数据,以用于训练语音识别系统。
THCHS-30
:这是一个中文语音识别数据集,包含了30小时的普通话语音录音。
Aishell
:这是一个大规模的中文语音识别数据集,包含了近1500小时的普通话语音录音。
Free ST Chinese Mandarin Corpus
:这是一个中文语音识别数据集,包含了大约100小时的普通话语音录音。
8. 推理任务
COPA (Causal Relations)
:这是一个因果关系推理的数据集,包含了关于因果关系的陈述,要求模型选择正确的因果关系。
WiC (Word in Context)
:这个数据集包含了单词的同义词对,要求模型判断两个句子是否具有相同的含义。
MultiRC (Multi-Sentence Reading Comprehension)
:这是一个多句子阅读理解的数据集,要求模型理解句子之间的关系。
ARC (Adversarial Reading Comprehension)
:这是一个对抗性的阅读理解数据集,包含了多个子任务,如因果关系推理、事实性判断等。
Social IQA (Social Intelligence Questions Answering)
:这个数据集包含了关于社会常识的推理问题,要求模型理解社会背景和人物关系。
ReClor (Reasoning in Commitment and Obligation Relations)
:这是一个推理数据集,要求模型理解和应用义务关系。
TREC-6 (Text REtrieval Conference)
:这个数据集包含了多个领域的推理问题,如数学推理、逻辑推理等。
LogiQA (Logical Question Answering)
:这是一个逻辑推理数据集,包含了多种逻辑关系的问题。
REALM (REasoning Across RElated MEntities)
:这个数据集包含了多个子任务,如事实性判断、因果关系推理等。
ProPara
:这是一个基于段落的推理数据集,包含了多种推理任务,如因果关系推理、逻辑推
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/知新_RL/article/detail/546563
推荐阅读
article
【
AI
绘画
】
Stable
Diffusion
使用入门教程!!!!_
ai
绘画
的
extensions
...
训练
AI
学习图片生成模型:prompt提示词。_
ai
绘画
的
extensions
ai
绘画
的
extensions
...
赞
踩
article
git
仓库
两种
代码
拉取
方式及部分
命令
——
大白话
超详细一看就会_
git
拉取
代码
...
1,查看当前
仓库
状态
git
status;2,查看提交历史记录
git
log;3,提交本地
代码
到暂存区
git
ad...
赞
踩
article
SwiftUI
5.0
(
iOS
17.0,
macOS
14.0+)新
Inspector
辅助
视图
之...
在本篇博文中,我们讨论了
SwiftUI
5.0
(
iOS
17.0+,
macOS
14.0+Mac Catalyst 1...
赞
踩
article
20
23-04-
20
_面试题复盘笔记(253)_
java
: -
source
1.5
中不
支持
lam...
强引用是指被引用对象的内存空间不会被回收,只有当所有强引用都被解除之后,垃圾回收器才会回收该对象。软引用是一种比较弱的引...
赞
踩
article
解决:
Vscode
中的
gi
t
突然不显示,报错:
gi
t
Lens can‘
t
find
t
he
gi
t
...
Mac上安装的Xcode软件导致_
vscode
找不到
gi
t
vscode
找不到
gi
t
问题:Ma...
赞
踩
article
如何使用
PicGo
+
Github
搭建
免费
图床
,
免费
云
存储
...
本文所有图片都是引用自建
免费
图床
链接,到此,利用
PicGo
+
Github
搭建
免费
图床
就已完成,同样,此
图床
也可作为
云
盘使...
赞
踩
article
AI
移动
碰撞
避免
算法
_
移动
碰撞
算法
...
在rts游戏中会出现大量单位集体行动,或者设置守卫自动巡逻这种,需要在服务端控制其
移动
但又不想让他们
移动
时重叠在一起,所...
赞
踩
article
5
月
10
日
,
今日
信息
差...
6、
5
G标准必要专利全球排名公布:华为第一、小米首次进入前十。华为
5
G标准必要专利全球排名第一
,
中兴、大唐、OPPO分别...
赞
踩
article
分享
一波
chatgpt
的常用
prompt
_
chatgpt
prompt
...
【代码】
分享
一波
chatgpt
的常用
prompt
。
_
chatgpt
prompt
chatgpt
prompt
...
赞
踩
article
HarmonyOS
应用
开发者
高级认证答案_
鸿蒙
应用
/元
服务
上架过程上传
软件包
常见的问...
HarmonyOS
应用
开发者
高级认证答案_
鸿蒙
应用
/元
服务
上架过程上传
软件包
常见的问
鸿蒙
应用
/元
服务
上架过程上传
软件包
常...
赞
踩
article
【
LeetCode
】543.
二叉树
的
直径
_
leetcode
543.
二叉树
的
直径
...
这道题和判断一棵
二叉树
是否是平衡
二叉树
非常相似。抽象定义问题
的
能力很重要! 我们在写题
的
时候,逻辑一定要清楚,即脑子要先...
赞
踩
article
vivado
License
导入
方法
与资源获取...
前言以下安装说明基于已经正确安装
vivado
笔者操作环境:linux
vivado
版本:2015.2
vivado
Li...
赞
踩
article
Hive
的
分区
和分桶_
hive
自动识别
分区
...
为了提高查询数据的效率,
Hive
提供了表
分区
机制。
分区
表基于
分区
键把具有相同
分区
键的数据存储在一个目录下,在查询某一个...
赞
踩
article
TCP
连接
,
一端断电和
进程
崩溃
有
什么
区别?...
TCP
连接
,
一端断电和
进程
崩溃
有
什么
区别?
TCP
连接
,
一端断电和
进程
崩溃
有
什么
区别? ...
赞
踩
article
人工智能
时代
的
落地方案 ——
AI
Agent
_ai
agent
部署
...
大语言模型
的
浪潮推动了
AI
Agent
相关研究快速发展,
AI
Agent
是当前通往 AGI
的
主要探索路线。大模型...
赞
踩
article
Flink
中
slot
,
task
,
并行度
的概念以及与CPU,内存的关系_
task
slot
s...
我们在学习
Flink
时,经常会听到
task
,
slot
,线程以及
并行度
这几个概念,对于初学者来说,这几个概念关系以及它们...
赞
踩
article
elementui
-中
文官
网
_
elementui
中
文官
网
...
elementui
官
网
在国内访问比较习慢,一般在国内都会使用中
文官
网
,以下为elementUI中
文官
网
地址,有需要的友友...
赞
踩
article
智能
营销
文本
生成
项目
知识点
总结_
文本
生成
任务之
营销
文本
生成
git
...
最近业余时间弄了一个
文本
生成
的
项目
,在此将相关
知识点
总一下总结。
项目
说明本
项目
中,我们作为输入的原文称之为 source...
赞
踩
article
[
NLP
]
langchain
-
ChatGLM
本地
知识库
_
langchain
+
chatglm
本地
知...
基于
本地
知识库
的问答应用,建立一套对中文场景与开源模型支持友好、可离线运行的
知识库
问答解决方案。_
langchain
+c...
赞
踩
article
Python
自然语言
处理入门
,
Python
面试超详细
知识点
...
不知道你们用的什么环境
,
我一般都是用的
Python
3.6环境和pycharm解释器
,
没有软件
,
或者没有资料
,
没人解答问题...
赞
踩
相关标签
AI作画
stable diffusion
git
github
gitee
iOS 17
MacOS 14
Catalyst 17
Inspector
辅助视图
Sheet
iPadOS 17
java
笔记
vscode
Xcode
Mac
云原生
图搜索
算法
深度学习
机器学习
5G
人工智能
物联网