NLP中常用评测数据集介绍_sst-5数据集

作者：小小林熬夜学编程 | 2024-03-31 19:54:00

踩

sst-5数据集

GLUE

通常来说，NLP可以分为自然语言理解（NLU）和自然语言生成（NLG）。在NLU方面，我们拿时下最流行的GLUE(General Language Understanding Evaluation)排行榜举例，其上集合了九项NLU的任务，分别是

CoLA(The Corpus of Linguistic Acceptability):纽约大学发布的有关语法的数据集，该任务主要是对一个给定句子，判定其是否语法正确，因此CoLA属于单个句子的文本二分类任务；
SST(The Stanford Sentiment Treebank)，是斯坦福大学发布的一个情感分析数据集，主要针对电影评论来做情感分类，因此SST属于单个句子的文本分类任务（其中SST-2是二分类，SST-5是五分类，SST-5的情感极性区分的更细致）；
MRPC(Microsoft Research Paraphrase Corpus)，由微软发布，判断两个给定句子，是否具有相同的语义，属于句子对的文本二分类任务；
STS-B(Semantic Textual Similarity Benchmark)，主要是来自于历年SemEval中的一个任务（同时该数据集也包含在了SentEval），具体来说是用1到5的分数来表征两个句子的语义相似性，本质上是一个回归问题，但依然可以用分类的方法做，因此可以归类为句子对的文本五分类任务；
QQP(Quora Question Pairs)，是由Quora发布的两个句子是否语义一致的数据集，属于句子对的文本二分类任务；
MNLI(Multi-Genre Natural Language Inference)，同样由纽约大学发布，是一个文本蕴含的任务，在给定前提（Premise）下，需要判断假设（Hypothesis）是否成立，其中因为MNLI主打卖点是集合了许多不同领域风格的文本，因此又分为matched和mismatched两个版本的MNLI数据集，前者指训练集和测试集的数据来源一致，而后者指来源不一致。该任务属于句子对的文本三分类问题。
QNLI（Question Natural Language Inference)，其前身是SQuAD 1.0数据集，给定一个问句，需要判断给定文本中是否包含该问句的正确答案。属于句子对的文本二分类任务；
RTE(Recognizing Textual Entailment)，和MNLI类似，也是一个文本蕴含任务，不同的是MNLI是三分类，RTE只需要判断两个句子是否能够推断或对齐，属于句子对的文本二分类任务；
WNLI(Winograd Natural Language Inference)，也是一个文本蕴含任务，不过似乎GLUE上这个数据集还有些问题；

XNLI

NLI(Natural language inference, 自然语言推理) 是在给定一个“前提”(premise)的情况下，判断一个“假设”(hypothesis)是真(隐含)、假(矛盾)还是不确定(中性)的任务。
LABEL

true (entailment)
false (contradiction/contradictory)
undetermined (neutral)

Example of XNLI (zh)

premise	hypo	label
从概念上看 , 奶油收入有两个基本方面产品和地理	产品和地理是什么使奶油抹霜工作	neutral
是啊 , 我告诉你 , 如果你去买一些网球鞋 , 我可以看到为什么现在你知道他们是起床在百美元范围	网球鞋有一系列的价格	neutral
我们的一个号码会非常详细地执行你的指示	我团队的一个成员将非常精确地执行你的命令	entailment
你怎么知道的 ? 所有这些都是他们的信息	这些信息属于他们	entailment
男女同性恋	异性恋者	contradictory
在 rue des 法郎的结束时 , 很多人认为是城市最英俊的住宅广场	孚日广场 , 用石头和红砖墙 . 孚日广场完全是用灰色大理石建造的	contradictory

COLA

CoLA(The Corpus of Linguistic Acceptability) 数据集由10657个句子组成，分别来自于23种语言学出版物，原作者对这些句子进行了专业的可接受性（语法）标注。这里提供的公共版本包含9594个句子，属于训练集和验证机，不包括测试集（1063个句子）。详细如下。

raw/in_domain_train.tsv (8551 lines)
raw/in_domain_dev.tsv (527 lines)
raw/out_of_domain_dev.tsv (516 lines)
tokenized/in_domain_train.tsv (8551 lines)
tokenized/in_domain_dev.tsv (527 lines)
tokenized/out_of_domain_dev.tsv (516 lines)

LABEL

0 (unacceptable)
1 (acceptable)

Example of CoLA
Each line in the .tsv files consists of 4 tab-separated columns.
Column 1: the code representing the source of the sentence.
Column 2: the acceptability judgment label (0=unacceptable, 1=acceptable).
Column 3: the acceptability judgment as originally notated by the author.
Column 4: the sentence.
在这里插入图片描述

SQuAD

斯坦福问答数据集（SQuAD）由人群工作者在一系列Wikipedia文章上提出的问题组成，其中每个问题的答案都是对应阅读段落的一段文字或跨度。

CoNLL-2003 NER

RACE

2.8万文章/10万问题大规模(英语考试)阅读理解数据集

参考

各领域机器学习数据集汇总（附下载地址）
http://www.xuwei.io/2018/11/30/%E6%96%87%E6%9C%AC%E5%88%86%E7%B1%BB-glue%E6%95%B0%E6%8D%AE%E9%9B%86%E4%BB%8B%E7%BB%8D/

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/345931