当前位置:   article > 正文

数据集 | NLP中的常见数据集_nlp数据集

nlp数据集

1.用于情绪分析的 NLP 数据集

IMDB评论IMDB Reviews:该数据集(虽然相对较小)在数千部电影中拥有超过25,000条评论,是二元情绪分类用例的完美数据集。

多域情感分析数据集Multi-Domain Sentiment Analysis Dataset多域情感分析数据集:虽然此数据集可能稍旧,但它具有各种各样的亚马逊产品及其相应的评论。

Stanford Sentiment Treebank:这个数据集非常适合训练一个模型,以便在10,000多篇烂番茄评论中使用更长的短语来识别情绪。

Sentiment140:这个受欢迎的数据集拥有超过160,000条推文,在6个字段中进行了格式化,包括推文数据,查询,文本,极性,ID和用户。

Twitter 美国航空公司情绪Twitter US Airline Sentiment:这个 2015 年的数据集包含与美国航空公司相关的已分类推文(正面、中立、负面)。

2.文本数据集

2.1.中文文本

千言数据集

2.2.英文文本

以下数据集非常适合语音识别和聊天机器人,因为它包含广泛的数据集。

20 Newsgroups:包含 20,000 个文档的集合,涵盖 20 个新闻组和主题。这些主题特别令人感兴趣,因为它们概述了从宗教到流行体育的所有内容。

路透社新闻数据集:最初出现在1987年,该数据集已被标记,索引和编译用于机器学习。

ArXiv:这个庞大的270 GB数据集以全文形式包含所有arXiv研究论文。

WikiQA语料库:这个公开可用的问答数据集最初是为了帮助所有开放领域的问答研究而编译的。

UCI 的垃圾邮件库:此数据集由惠普 (惠普) 的一个团队创建,旨在帮助创建垃圾邮件过滤器。它包含用户以前标记为垃圾邮件的电子邮件的一小部分。

Yelp评论:这个Yelp数据集包含超过160,000家企业的850多万条评论。它还拥有200,000多张图片,横跨8个主要大都市地区。

WordNet:该数据集由普林斯顿大学的研究人员编译,作为英语“synsets”的大型词汇数据库。如果您不知道那是什么,请不要担心;它本质上只是一组同义词,足以描述和概述独特和抽象的概念。

博客作者身份语料库:包含由19,320名博主撰写的681,000多篇博客文章,该数据集拥有超过1.4亿字。

3.用于自然语言处理的音频语音数据集

自然语言处理(NLP)尤其受益于音频语音数据集,例如此列表中的NLP数据集,以及车载导航和其他声音激活系统等虚拟助手。

2000 HUB5 英语:包含最初来自 40 个英语电话交谈的成绩单,此数据集包含一系列 NLP 语音文件。

LibriSpeech:包含大约1000小时的英语演讲,这个数据集本质上是一个有声读物的集合,这些有声读物是由它们衍生的书籍的章节组织的。

口语维基百科语料库:对于任何希望超越英语的人来说,这个数据集是完美的数据集,由德语,荷兰语和英语的文章组成。它包含一连串不同主题的独特和不同的读者。

免费口语数字数据集:此NLP数据集由1,500多个英语口语数字记录组成。

TIMIT:专为开发自动语音识别系统而设计,该数据集包含600多个独特的美式英语使用者从十个“语音丰富”段落中阅读的记录。它对于任何与声学语音研究有关的研究都特别有用。

4.自然语言处理数据集(常规)

4.1.CoLA

下载地址:The Corpus of Linguistic Acceptability (CoLA) (nyu-mll.github.io)

语言可接受性语料库(CoLA)的完整形式由23种语言学出版物中的10657个句子组成,由原作者对其可接受性(语法性)进行专业注释。这里提供的公开版本包含9594个属于训练和开发集的句子,不包括1063个属于测试集的句子。

 将数据拆分为包含来自 17 个源的句子的域内集和包含其余 6 个源的域外集。域内集拆分为训练/开发/测试部分,域外集拆分为开发/测试部分。测试集不会公开。为方便起见,每个数据集都以原始形式和标记化形式(来自NLTK标记器)提供两次。公共数据分为以下文件:

  • 原始/in_domain_train (8551 行)
  • 原始/in_domain_dev (527 行)
  • 原始/out_of_domain_dev (516 行)
  • 标记化/in_domain_train.tsv(8551 行)
  • 标记化/in_domain_dev.tsv(527 行)
  • 标记化/out_of_domain_dev.tsv(516 行)

Enron Dataset:此数据集包含 500,000 多封安然官员电子邮件的消息,特别适用于任何希望扩展对电子邮件工具内部工作原理的理解的人。

谷歌图书字母:Ngram是固定大小的项目元组。Ngrams 中的 N 旨在指定元组中的元素数,因此 5 个 gram 包含 5 个单词/字符。

亚马逊评论:该数据集拥有3500万条亚马逊产品评论,跨越18年,对于需要用户信息,评级和明文评论进行情感分析的任何人特别有用。

维基百科链接数据:此Google数据集包含大约1300万个文档,每个文档都包含一个超链接(每个至少一个),该超链接指向英语维基百科页面。每个维基百科页面都被视为一个实体。

Blogger语料库:这个 Blogger.com 集合了大约681,288篇博客文章,包含超过1.4亿字。其中包含的每个博客都有200个最常用的英语单词。

Gutenberg eBooks List::最初取自古腾堡计划的带注释的电子书列表,该NLP数据集包含围绕每本电子书的基本信息,并根据其出版年份进行组织。

危险:包含来自测验节目的200,000多个Q&A,由神圣的Reddit用户编制,每个数据点都包含更多信息,例如播出日期,问题甚至集数。

Hansards 加拿大议会的文本块:包含来自第 36 届加拿大议会法庭报告的 130 万对文本,这个多样化的数据集对于各种 NLP 应用程序非常有用。

英语短信垃圾邮件收集:非常适合构建垃圾邮件过滤器,因为此NLP数据集包含5500多条英语短信,每条短信都被标记为合法或垃圾邮件。

参考文献

【1】25 Best NLP Datasets for Machine Learning | iMerit

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/370641
推荐阅读
相关标签
  

闽ICP备14008679号