赞
踩
STS、MSRP、SICK 语义相似度计算的公开数据集下载地址
百度云:https://pan.baidu.com/s/1sqlCc702owp_T6KjyNT6Yw
提取码: 66nb
官方下载网址: https://www.microsoft.com/en-us/download/details.aspx?id=52398
微软研究释义语料库提供的5081对英文句子,这些句子是从Web上的新闻源中提取的,还有人工注释,指示每对是否捕获了释义/语义等价关系。从任何给定的新闻文章中提取的句子不超过1个。我们已作出协调一致的努力,正确地将每个句子信息与其出处以及有关其作者的任何相关信息相关联。
参考文献引用:
Dolan, B., Quirk, C., & Brockett, C. Unsupervised Con-struction of Large Paraphrase Corpora: Exploiting Massively Parallel News Sources.[C]//Proceedings of the 20th International Conference on Computational Linguistics. COLING, 2004: 350-356.
原数据集目录:
一万个英语句子对,来自于两个已经存在的paraphrase数据集
官方下载网址(这个访问不了了现在):http://clic.cimec.unitn.it/composes/sick.html
参考文献引用:
Marelli M, Menini S, Baroni M, et al. A SICK cure for the evaluation of compositional distributional semantic models[C]. language resources and evaluation, 2014: 216-223.
原数据集SICK.txt 各个字段的定义:
entailment_label: 文本蕴含关系的标注(gold truth/ground truth) (NEUTRAL, ENTAILMENT, or CONTRADICTION)
relatedness_score: 语义关系度的标注分数 gold score (on a 1-5 continuous scale)
entailment_AB: A到B的蕴含关系entailment for the A-B order (A_neutral_B, A_entails_B, or A_contradicts_B)
entailment_BA: B到A的蕴含关系entailment for the B-A order (B_neutral_A, B_entails_A, or B_contradicts_A)
Task 1: Semantic Textual Similarity Multilingual and Crosslingual Focused Evaluation
官方下载网址: http://ixa2.si.ehu.es/stswiki/index.php/STSbenchmark
参考文献引用:
Cer D M, Diab M T, Agirre E, et al. SemEval-2017 Task 1: Semantic Textual Similarity Multilingual and Crosslingual Focused Evaluation[J]. meeting of the association for computational linguistics, 2017: 1-14.
语义文本相似性(STS)衡量句子的意义相似性。应用包括机器翻译(MT)、摘要、生成、问答(QA)、简短回答评分、语义搜索、对话和会话系统。STS共享任务是评估当前最先进技术的场所。2017年的任务侧重于多语言和跨语言对,其中一个子轨道探索MT质量评估(MTQE)数据。这项任务得到31个小组的大力参与,其中17个小组参加了所有语文课程。我们总结性能并回顾一些性能良好的方法。分析强调了常见的错误,提供了对现有模型局限性的洞察。为了支持正在进行的语义表示方面的工作,STS基准作为一种新的共享培训和评估集被引入,该测试集是从英语STS共享任务数据(2012-2017)的语料库中精心挑选的。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。