当前位置:   article > 正文

SemEval-2010任务8:成对名词之间的语义关系的多分类_semeval-2010 task 8

semeval-2010 task 8

摘要SemEval-2任务8专注于名词对之间语义关系的多分类。 该任务旨在比较语义关系分类的不同方法,并为将来的研究提供标准的测试平台。 本文定义了任务,描述了训练和测试数据及其创建过程,列出了参与的系统(10个团队,28个运行),并讨论了其结果。

1简介

SemEval-2010任务8着重于名词对之间的语义关系。例如,茶和人参在“杯子中含有来自人参干的茶”中具有“实体-原点”关系。语义关系的自动识别具有许多应用,例如信息提取,文档摘要,机器翻译或叙词表和语义网络的构建。它还可以促进辅助任务,例如单词义消除歧义,语言建模,释义和识别文本含义。我们的目标是创建一个自动分类语义关系的测试平台。在制定任务时,我们遇到了几个挑战:选择合适的关系集,指定注释过程以及确定任务本身的细节。它们将在第2节中进行简要讨论。另请参见Hendrickx等。 (2009年),其中包括相关工作的调查。任务8的直接前身是名词之间的语义关系分类,即SemEval-1中的任务4(Girju等,2009),它为七个关系中的每一个都有一个单独的二进制标签数据集。我们将SemEval2010任务8定义为多向分类任务,其中每个示例的标签都必须从十个关系的完整集合中选择,并且事先不提供从名词到参数槽的映射。我们还提供了更多数据:10,717个带注释的示例,而SemEval-1 Task 4中为1,529个。

2数据集创建

2.1语义关系清单

我们首先决定了语义关系清单。理想情况下,它应该是详尽无遗的(启用任何一对名词之间的关系描述)并且是互斥的(上下文中的每对名词仅应映射到一个关系)。但是,文献表明,任何关系清单都不能同时满足这两种需求,并且在实践中,必须接受它们之间的某种权衡。作为务实的妥协,我们选择了九种关系,涵盖范围广泛,足以引起一般和实际利益。我们旨在尽可能避免语义重叠。但是,我们包括两组高度相关的关系(ENTITY-ORIGIN / ENTITY-DESTINATION和CONTENT-CONTAINER / COMPONENTWHOLE / MEMBER-COLLECTION),以评估模型进行细粒度区分的能力。我们的库存如下。前四个也用在SemEval-1任务4中,但是注释准则已经过修订,因此不应假定完全连续。

因果(CE)。事件或物体会产生效果。示例:那些癌症是由辐射暴露引起的
文书机构(IA)。代理人使用工具。示例:电话接线员
产品生产商(PP)。生产者导致产品存在。示例:一家工厂生产西服
内容容器(CC)。对象物理上存储在空间的划定区域中。示例:称重满满一瓶蜂蜜
实体来源(EO)。实体来自原点(例如,位置或材料)或从原点衍生。示例:来自外国的信件
 实体目标(ED)。实体正在走向目的地。例子:男孩上床睡觉
整体分量(CW)。对象是更大整体的组成部分。示例:我的公寓有一个大厨房
成员集合(MC)。成员构成集合的非功能部分。例子:森林里有很多树
消息主题(MT)。消息(书面或语音)与主题相关。示例:讲座是关于语义的

2.3注释过程
注释进行了三轮。首先,我们通过基于模式的Web搜索为每个关系手动收集了大约1200个句子。为了确保各种例句,我们为每种关系使用了大量的模式,通常在一百到几百之间。重要的是,在第一轮中,关系本身未加注释:目标只是收集积极和几乎未遂的候选实例。一个粗略的目标是让90%的候选人实例化目标关系(“积极实例”)。在第二轮中,为每个关系收集的候选者转到两个独立的注释器进行标记。由于我们有一个多向分类任务,因此注释者使用了9个关系以及OTHER的完整清单。由于重叠的案例在很大程度上是系统性的,因此这种注释变得更加容易,这是由诸如隐喻用法之类的一般现象和存在多个关系的情况引起的。例如,CONTENTCONTAINER和ENTITY-DESTINATION之间存在系统的潜在重叠,具体取决于句子中描述的情况是静态还是动态,例如,, “When I came, the apples were already put in the basket.” is CC(e1, e2), 而 “Then, the apples were quickly put in the basket.” is ED(e1, e2).

3任务参与
系统必须解决以下任务:给定一个句子和两个标记的名词,预测这些名词之间的关系以及关系的方向。 我们发布了一个详细的评分器,该评分器输出(1)混淆矩阵,(2)准确性和覆盖率,(3)每个关系的精度(P),召回率(R)和F1-分数,(4)微观平均P,R,F1,(5)宏观平均P,R,F1。 对于(4)和(5),计算将忽略OTHER关系。 我们的官方评分指标是针对(9 + 1)方式分类的宏观平均F1-分数。 要求团队为训练数据的不同部分提交测试数据预测。 具体来说,我们要求获得前1000、2000、4000和8000个训练实例(称为TD1到TD4)的结果。 TD4是完整的培训套件。

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/543294
推荐阅读
相关标签
  

闽ICP备14008679号