当前位置:   article > 正文

相似度论文再回顾2:数据集相关知识_nli数据集

nli数据集

文本相似度数据集常见类型

1、是非类型:这种是比较常见的类型,主要格式是“(句子1, 句子2, 是否相似)”,这里收集到的ATEC、BQ、LCQMC、PAWSX都是这种类型;

2、NLI类型:NLI的全称是Natrual Language Inference(自然语言推理),样本格式是“(句子1, 句子2, 蕴涵/中立/矛盾)”,可以视为更为精细一点的相似度数据集,当前可以找到的中文NLI数据集是英文版翻译过来的,链接位于CNSD;

3、打分类型:这算是最精细的相似度语料,格式为“(句子1, 句子2, 相似程度)”,这个相似程度一般是比0/1更细颗粒度的等级,目前可以找到的中文数据集是STS-B,也是由对应的英文数据集翻译过来的。
原文链接:https://spaces.ac.cn/archives/8541

相似度评测数据集

一般相似度问题出现在:摘要生成任务、对话任务、问答任务中。
摘要生成任务即在给定一段原始文本的基础上,生成预设摘要的过程。
对话任务即给定对话背景和对话上文的基础上,生成对话下文的过程。
问答任务即给定问题的基础上,生成预设答案的过程。
在相似度测评中,以摘要生成任务为例。评估一篇摘要的质量,是将机器生成的摘要和预设摘要进行比较的过程,这是一件比较困难的任务。对于一篇摘要而言,很难说有标准答案。不同于很多拥有客观评判标准的任务,摘要的评判一定程度上依赖主观判断。即使在摘要任务中,有关于语法正确性、语言流畅性、关键信息完整度等标准,摘要的评价还是如同”一千个人眼里有一千个哈姆雷特“一样,每个人对摘要的优劣都有自己的准绳。
尽管如此,为了测评方便,学者们公布了相关数据集,数据集格式如下:
其中,"source"为原始语句,即输入给机器的语句;“reference”为参考答案,即预设的标准答案;“system_output”为机器预测产生的答案;score是由人工判断生成的摘要相关方面(一致性、相关性等等)的打分值。

{
“doc_id”: “dm-test-8764fb95bfad8ee849274873a92fb8d6b400eee2”,
“system_id”: “M11”,
“source”: “Paul Merson has restarted his row with Andros Townsend after the Tottenham midfielder was brought on with only seven minutes remaining in his team 's 0-0 draw with Burnley on Sunday . 'Just been watching the game , did you miss the coac

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/306414
推荐阅读
相关标签
  

闽ICP备14008679号