赞
踩
通常来说,NLP可以分为自然语言理解(NLU)和自然语言生成(NLG)。在NLU方面,我们拿时下最流行的GLUE(General Language Understanding Evaluation)排行榜举例,其上集合了九项NLU的任务,分别是
NLI(Natural language inference, 自然语言推理) 是在给定一个“前提”(premise)的情况下,判断一个“假设”(hypothesis)是真(隐含)、假(矛盾)还是不确定(中性)的任务。
LABEL
Example of XNLI (zh)
premise | hypo | label |
---|---|---|
从 概念 上 看 , 奶油 收入 有 两 个 基本 方面 产品 和 地理 | 产品 和 地理 是 什么 使 奶油 抹 霜 工作 | neutral |
是 啊 , 我 告诉 你 , 如果 你 去 买 一些 网球鞋 , 我 可以 看到 为什么 现在 你 知道 他们 是 起床 在 百 美元 范围 | 网球鞋 有 一 系列 的 价格 | neutral |
我们 的 一个 号码 会 非常 详细 地 执行 你 的 指示 | 我 团队 的 一个 成员 将 非常 精确 地 执行 你 的 命令 | entailment |
你 怎么 知道 的 ? 所有 这些 都 是 他们 的 信息 | 这些 信息 属于 他们 | entailment |
男 女 同性恋 | 异性恋者 | contradictory |
在 rue des 法郎 的 结束 时 , 很多 人 认为 是 城市 最 英俊 的 住宅 广场 | 孚日 广场 , 用 石头 和 红砖 墙 . 孚日 广场 完全 是 用 灰色 大理石 建造 的 | contradictory |
CoLA(The Corpus of Linguistic Acceptability) 数据集由10657个句子组成,分别来自于23种语言学出版物,原作者对这些句子进行了专业的可接受性(语法)标注。这里提供的公共版本包含9594个句子,属于训练集和验证机,不包括测试集(1063个句子)。详细如下。
LABEL
Example of CoLA
Each line in the .tsv files consists of 4 tab-separated columns.
Column 1: the code representing the source of the sentence.
Column 2: the acceptability judgment label (0=unacceptable, 1=acceptable).
Column 3: the acceptability judgment as originally notated by the author.
Column 4: the sentence.
斯坦福问答数据集(SQuAD)由人群工作者在一系列Wikipedia文章上提出的问题组成,其中每个问题的答案都是对应阅读段落的一段文字或跨度。
2.8万文章/10万问题大规模(英语考试)阅读理解数据集
各领域机器学习数据集汇总(附下载地址)
http://www.xuwei.io/2018/11/30/%E6%96%87%E6%9C%AC%E5%88%86%E7%B1%BB-glue%E6%95%B0%E6%8D%AE%E9%9B%86%E4%BB%8B%E7%BB%8D/
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。