当前位置:   article > 正文

实体-关系联合抽取:Entity-Relation Extraction as Multi-turn Question Answering

entity-relation extraction as multi-turn question answering

论文地址:https://www.aclweb.org/anthology/P19-1129.pdf

文章标题:Entity-Relation Extraction as Multi-turn Question Answering(实体关系提取作为多轮问题的回答)ACL2019

Abstract

本文提出了一种新的实体关系抽取方法。我们将任务转换为一个多回合的问题回答问题,即,实体和关系的提取被转化为从上下文中识别答案的任务。这种多轮QA形式化有几个关键的优点:首先,问题查询为我们想要识别的实体/关系类编码重要信息;其次,QA为实体与关系的联合建模提供了一种自然的方式;第三,它使我们能够利用发展良好的机器阅读理解(MRC)模型

在ACE和CoNLL04语料库上的实验表明,所提出的范例明显优于先前的最佳范例。我们能够获得所有ACE04、ACE05和CoNLL04数据集的最新结果,这三个数据集的SOTA结果分别为49.4(+1.0)、60.2(+0.6)和68.9(+2.1)。

此外,我们建构了一个新开发的中文资料库,它需要多步骤的推理来建构实体的相依性,而不是单一步骤的相依性萃取。所提出的多回合质量保证模型在简历数据集上也达到了最佳的性能。

一、Introduction

识别实体及其关系是从非结构化的原始文本中提取结构化知识的前提,近年来人们对非结构化的原始文本越来越感兴趣。给定一组自然语言文本,实体-关系提取的目标是将其转换为结构化的知识库。例如,给定以下文本:
在这里插入图片描述
我们需要提取四种不同类型的实体,即三种关系:建立关系、建立时间关系和服务角色关系。文本将被转换为表1中所示的结构数据集。
在这里插入图片描述
表一:提取的结构表的说明。

大多数现有的模型通过从文本中提取三元组列表来完成此任务,即REL(e1; e2)表示实体e1与实体e2之间的关系REL。以前的模型主要分为两大类:流水线方法,它首先使用标记模型来识别实体,然后使用关系提取模型来识别每个实体对之间的关系;联合方法通过约束或参数共享等不同策略,将实体模型与关系模型相结合。

当前的方法在任务形式化和算法方面存在几个关键问题。在形式化层次上,REL(e1;e2)三元组结构不足以充分表达文本背后的数据结构。以Musk为例,标签之间存在层次依赖关系:时间的提取依赖于位置,因为一个人可以在不同的时间段内担任公司的多个位置。职位的选择也取决于公司,因为一个人可以在多家公司工作。在算法层面,对于大多数现有的关系提取模型(Miwa和Bansal, 2016;王等,2016a;(Ye et al., 2016),模型的输入是两个标记提及的原始语句,输出是两个提及之间是否存在关系。Wang et al. (2016a)指出;Zeng et al.(2018),在这种形式化过程中,神经模型很难捕捉到所有的词汇、语义和句法线索,特别是当(1)实体距离较远的时候;(2)一个实体涉及多个三元组;或(3)关系跨有重叠。

本文提出一个新的范式去解决关系抽取问题,将关系抽取任务顶一个多轮问答任务:每个实体类型和关系类型由问答模板表征,实体和关系通过回答模板问题来提取。答案是文本跨度(text spans),使用现在标准的机器阅读理解(MRC)框架提取:预测给定上下文时的答案跨度。

Q:在文本中谁被提及? A:Musk
Q:Musk为哪一个公司工作? A:SpaceX, Tesla, SolarCity, Neuralink
and The Boring Company
Q:Musk在SpackX中的职位是什么? A:CEO

将实体关系抽取任务当做多轮QA有以下优势:(1)多轮QA的设置提供了优雅的方式捕获标注的层级依赖。随着多轮QA的进行,可以逐步获得下一轮所需的实体。这与多轮槽填充对话系统类似。(2)问题查询编码需要识别的关系分类的重要先验知识。这种信息性可以潜在地解决现有关系抽取模型无法解决的问题,例如实体对之前距离较远,关系跨度重叠等;(3)QA框架提供了一种同时提取实体和关系的自然方式:大多数MRC模型支持输出特殊的NONE标记,表明该问题没有答案。通过这样,原始的两个任务-实体抽取和关系抽取可以合并到单独的QA任务中:如果对应于该关系的问题的返回答案不是NONE,则关系成立,并且此返回的答案是希望提取的实体。

在本文中,我们证明了所提出的范例,将实体-关系抽取任务转换成多回合的QA任务,在现有的系统上引入了显著的性能提升。它在ACE和CoNLL04数据集上实现了最先进的(SOTA)性能。这些数据集上的任务被形式化为三重抽取问题,其中两次QA就足够了。因此,我们建立了一个更复杂和更困难的数据集称为RESUME,它需要从原始文本中提取个人的传记信息。从RESUME构建结构化知识库需要四到五次QA。我们还表明,这种多回合QA设置可以很容易地集成强化学习(就像在多回合对话系统中一样)ÿ

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/天景科技苑/article/detail/900992
推荐阅读
  

闽ICP备14008679号