赞
踩
存在问题:识别共享实体的重叠关系存在故有困难
联合学习可以带来显著的性能提升。
联合抽取的问题:
涉及连续的相互关联的步骤
遭受曝光偏差的问题
训练时,使用真值条件进行预测,推理时,必须从头开始提取,进而导致误差累积
本文提出的单阶段联合抽取模型TPLinker可以解决上述问题,能够发现共享一个或两个实体的重叠关系,同时不受暴露偏差的影响
TPLinker将联合抽取描述为一个标记对连接问题,并提出了一种新的握手标记方案,在每种关系类型下对齐实体对的边界标记。
实验结果:TPLinker在重叠和多重关系抽取方面有着显著的优势,在两个公共数据集上取得了最佳性能。
传统流水线方法容易出现错误传递。
联合抽取的研究趋势不断增长,且有效整合实体和关系的信息,性能更好。
Zheng等人提出的统一的标签方案,将联合提取转换为序列表及问题,但缺乏识别重叠关系的能力。一个实体可以参与同意文本的多个关系。
处理实体对重叠(EPO)和单实体重叠(SEO)情况的大多数现有模型可以被分类为两类:
基于解码器:使用解码器一次提取一个词或一个元组的编码器-解码器体系结构,类似于机器翻译模型(Zeng等人,2018年; Nayak和Ng,2020年)。
基于分解:首先区分可能涉及目标关系的所有候选主题实体,然后为每个提取的主题标记相应的对象实体和关系(Li等人,2019; Yu等人,2020; Wei等人,2020年)。
这些方法都存在一个问题:曝光偏差exposure bias.
对于基于解码器的方法,在训练时,地面事实标记被用作上下文,而在推理时,整个序列由结果模型自己生成,因此由模型生成的先前标记被馈送为上下文。结果,从不同的分布,即从与模型分布相反的数据分布,提取训练和推断时的预测记号(Zhang等人,2019年)。类似地,基于分解的方法在训练过程中使用黄金主题实体作为特定输入来引导模型提取对象实体和关系,而在推理时输入中心实体由训练的模型给出,导致训练和推理之间的间隙。
本文提出了一种一步提取实体和重叠关系的方法,即TPLinker,它在训练和推理的间隙之间架起了座桥梁。TPLinker将联合抽取任务转化为令牌对链接问题(Token Pair Linking problem)。
给定一个句子,两个位置p1,p2和特定关系r,TPLinker将回答三个伪问题:
p1和p2是否分别是同一实体的起始和结束位置
p1和p2是否分别是具有r关系的两个实体的起始位置?
p1和p2是否分别是具有r关系的两个实体的结束位置?
为此,我们设计了一个握手标记方案,为每个关系标注三个令牌链接矩阵来回答上述三个问题。然后利用这些链接矩阵对不同的标注结果进行解码,从中提取出所有实体及其重叠关系。直观上,TPLinker不包含任何相互依赖性提取步骤,避免了训练时对地面真值条件的依赖,实现了训练与测试的一致性。
使用的公共数据集:NYT和WebNLG
实验结果:达到最优,在Normal、SEO、EPO和多重关系提取的性能上显著提高。
首先介绍握手标记方法及其解码算法
然后介绍TPLinker的模型结构
基于关系r条件下主语实体s和宾语实体o的边界标记对齐可以得到三元组(s,r,o)的思想,通过对标记对进行链接标记,实现了一步联合抽取.
如图2的左图所示,给定一个句子,我们枚举所有可能的标记对,并使用矩阵标记标记链接。正式地,三种类型的链接定义如下:
实体头到实体尾(EH-to-ET)。矩阵中的紫色标签表示对应的两个位置分别是实体的开始和结束标记。例如,“纽约市”和“德布拉西奥”是句子中的两个实体,因此,标记对(“New,““City”)和(“De”“Blasio”)被分配以紫色标签1.注:相当于两个坐标点对应的位置被标记。
主语中心语到宾语中心语(SH到OH)。红色标签表示两个位置分别是配对的主语实体和宾语实体的开始标记。例如,在“New York City”和“De Blasio”之间存在“市长mayor”关系,因此标记对(“New”和“De”)被分配红色标签1.
主语尾到宾语尾(ST到OT)。蓝色标签与红色标签的逻辑相似,这意味着两个位置分别是成对的主语实体和宾语实体的结束标记。例如,特征点对(“City”、“Blasio”)被分配有蓝色标签1.
图2 左图:一个标记矩阵。为了便于说明,我们在一个矩阵中显示所有标记,其中每种颜色对应于特定种类的标记
存在问题:
存在内存浪费:从图2的左图中可以看出,在标记实体时,矩阵非常稀疏,尤其是下三角区域。因为实体尾部不可能出现在实体头部之前,所以下三角形区域中的标记都是零,这是对内存的巨大浪费。
主实体到尾实体的标记有可能存在于下三角区域:但是在标记主客体关系时,客体实体可能会出现在主实体之前,这时候会在下三角区域有标记,所以直接丢弃下三角区域是不合理的。
为了解决这个问题,本文把下三角区域标记的关系,映射到上三角区域,然后标记为2,然后在删除下三角区域,就节约了内存。在实际操作时,将剩下的项战平成一个序列(图3中橙色的序列),这样可以方便tensor计算,并使用一个映射来记住原始矩阵中的位置。
序列就像所有token的握手,这就是此方案成为握手标记方案的原因。
图2 右图:握手加标签方案的一个实例,阴影区域不包括在标签序列中
图2左作图:这种标记方案解决设计中的SingleEntityOverlap(SEO)问题和嵌套实体问题。
在本例中,“New York City”和“New York”嵌套并共享同一个对象“De Blasio”,这对之前的许多方法来说都是一个具有挑战性的问题。然而,通过这种标记方案,三个实体和两个三联体都可以容易地解码(参见第3.1.2节)。
该方案不能处理EntityPairOverlap(EPO)问题,因为对于相同的实体对,不同的关系不能在相同的实体对对应的位置标记两个关系。
为了解决这个问题,我们对每种关系类型做同样的矩阵标记工作。请注意,EH-to-ET标记由所有关系共享,因为它专注于一般实体提取,而不考虑特定的关系类型。总的来说,如图3所示,联合提取任务被分解为2N+1个序列标记子任务,其中N表示预定义关系类型的数量,每个子任务构建长度为的标签序列,其中n是输入句子的长度。看来我们的标签方案是极其低效的,因为标签序列的长度随着句子长度的增加而以平方数增加。幸运的是,我们的实验表明,通过在编码器顶部使用轻量级标记模型,TPLinker可以实现与最先进模型相比具有竞争力的运行效率,因为编码器由所有标记器共享(参见图3),并且一次只需要生成n个令牌(token)表示。
图3:TPLinker的框架。SH是主语中心语的缩写,OH是宾语中心语的缩写,ST是主语尾语的缩写,OT是宾语尾语的缩写。通过解码,可以提取5个三元组:(New York,
mayor, De Blasio), (De Blasio, born in, New York), (De Blasio, born in, New York City), (De Blasio,
live in, New York), (De Blasio, live in, New York City).
。
在图3的情况下,(“New”, “York”), (“New”, “City”)和 (“De”, “Blasio”)在EH到ET序列中被标记为1,这意味着“New York”, “New York City”和“De Blasio”是三个实体。对于关系“mayor”, (“New”, “De”)在SH到OH序列中被标记为1,这意味着以“New”开头的主语的市长是以“De”开头的宾语。(“City”,“Blasio”)在ST到OT序列中被标记为1,这意味着主语和宾语分别是以“City”和“Blasio”结尾的实体。基于由这三个序列表示的信息,可以解码三元组:(“New York City”, mayor, “De Blasio”)
同样的逻辑也适用于其他关系,但是注意标签2具有与标签1相反的含义,标签1表示标记之间的反向链接。例如,(“York”, “Blasio”)在关系“born in”的ST到OT序列中被标记为2,这意味着“York”和“Blasio”分别是配对的宾语和主语的尾部。与其他两个序列组合,解码的三联体应该是
(“DeBlasio”, born in, “New York”).
形式上,解码过程总结在算法1中。对于每个关系,在开始时,我们从EH到ET序列中提取所有实体跨度,并通过字典D将每个头位置映射到从该位置开始的对应实体。接下来,对于每个关系,我们首先从ST到OT序列解码(主语尾部位置,宾语尾部位置)元组并将它们添加到集合E中,然后从SH到OH序列解码(主语头部位置,宾语头部位置)元组并在字典D中查找从头部位置开始的所有可能实体。最后,我们迭代所有候选的主体-客体对以检查它们的尾部位置是否在E中。如果是,则提取新的三元组并将其添加到结果集合T中。
给定长度为n的句子,我们首先通过基本编码器将每个token 映射为低维上下文向量。然后,我们可以如下生成表征对的表示:
(1)
其中是参数矩阵,并且是在训练期间要学习的偏置向量。等式1在图3中也被表示为握手内核。
我们利用统一的架构进行EH到ET、SH到OH和ST到OT标记。给定标记对表示,通过等式3预测标记对的链接标签。
(2)
(3)
其中表示将的链接识别为l的概率。
这里,N是输入句子的长度,是真标签,E、H和T分别表示EH-to-ET、SH-to-OH和ST-to-OT的标签。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。