当前位置:   article > 正文

语义相似度公开数据集STS、MSRP、SICK 介绍和下载_sts数据集

sts数据集

STS、MSRP、SICK 语义相似度计算的公开数据集下载地址

百度云:https://pan.baidu.com/s/1sqlCc702owp_T6KjyNT6Yw

提取码: 66nb

1、MSRP数据集     Microsoft Research Paraphrase Corpus

官方下载网址:  https://www.microsoft.com/en-us/download/details.aspx?id=52398

      微软研究释义语料库提供的5081对英文句子,这些句子是从Web上的新闻源中提取的,还有人工注释,指示每对是否捕获了释义/语义等价关系。从任何给定的新闻文章中提取的句子不超过1个。我们已作出协调一致的努力,正确地将每个句子信息与其出处以及有关其作者的任何相关信息相关联。

参考文献引用:
Dolan, B., Quirk, C., & Brockett, C. Unsupervised Con-struction of Large Paraphrase Corpora: Exploiting Massively Parallel News Sources.[C]//Proceedings of the 20th International Conference on Computational Linguistics. COLING, 2004: 350-356.

原数据集目录:

2、sick数据集     Sentences Involving Compositional Knowledge 

一万个英语句子对,来自于两个已经存在的paraphrase数据集

官方下载网址(这个访问不了了现在):http://clic.cimec.unitn.it/composes/sick.html


参考文献引用:
Marelli M, Menini S, Baroni M, et al. A SICK cure for the evaluation of compositional distributional semantic models[C]. language resources and evaluation, 2014: 216-223.

原数据集SICK.txt 各个字段的定义:
entailment_label: 文本蕴含关系的标注(gold truth/ground truth) (NEUTRAL, ENTAILMENT, or CONTRADICTION)
relatedness_score: 语义关系度的标注分数 gold score (on a 1-5 continuous scale)
entailment_AB: A到B的蕴含关系entailment for the A-B order (A_neutral_B, A_entails_B, or A_contradicts_B)
entailment_BA: B到A的蕴含关系entailment for the B-A order (B_neutral_A, B_entails_A, or B_contradicts_A)

 

3、STS    2017 (STS数据集) SemEval-2017

Task 1: Semantic Textual Similarity Multilingual and Crosslingual Focused Evaluation

官方下载网址:  http://ixa2.si.ehu.es/stswiki/index.php/STSbenchmark

参考文献引用:

Cer D M, Diab M T, Agirre E, et al. SemEval-2017 Task 1: Semantic Textual Similarity Multilingual and Crosslingual Focused Evaluation[J]. meeting of the association for computational linguistics, 2017: 1-14.

       语义文本相似性(STS)衡量句子的意义相似性。应用包括机器翻译(MT)、摘要、生成、问答(QA)、简短回答评分、语义搜索、对话和会话系统。STS共享任务是评估当前最先进技术的场所。2017年的任务侧重于多语言和跨语言对,其中一个子轨道探索MT质量评估(MTQE)数据。这项任务得到31个小组的大力参与,其中17个小组参加了所有语文课程。我们总结性能并回顾一些性能良好的方法。分析强调了常见的错误,提供了对现有模型局限性的洞察。为了支持正在进行的语义表示方面的工作,STS基准作为一种新的共享培训和评估集被引入,该测试集是从英语STS共享任务数据(2012-2017)的语料库中精心挑选的。

 

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/379942
推荐阅读
相关标签
  

闽ICP备14008679号