赞
踩
论文地址:https://aclanthology.org/2021.acl-long.17.pdf
Author Information::Fei Li1, Zheng Wang2∗, Siu Cheung Hui2, Lejian Liao1, Dandan Song1∗,Jing Xu1, Guoxiu He3, Meihuizi Jia1
Institutions Information:
1 Beijing Institute of Technology, China
2 Nanyang Technological University, Singapore
3 Wuhan University, China
ACL 2021
尽管现有的NER模型已取得了比较优的性能,他们亦有一些不足之处。基于序列标注的NER模型在识别长实体时表现得并不是很好,因为他们(模型)只关注词级信息。基于块的(segment-based)NER模型,关注于处理segment的信息,而不是关注无法捕获段内的词级依赖关系的单个词。此外,由于边界检测和类型预测在NER任务中可能可以相互协作,因此,这两个子任务通过共享其信息来相互强化。
本文,我们提出一个新颖的MIN(Modularized Interaction Network)模型,不仅利用了块级信息和词级依赖,而且,结合一种交互机制来支持检测和类型预测之间的信息共享,以提高NER的性能。我们也在NER的三个数据集上做了实验。实验结果表明,本文提出的新模型达到了SOTA。
NER是NLP的基础任务之一,其任务是发现并识别出命名实体,比如 PER(person),LOC(location),ORG(organization)。它也被用于很多下游任务,比如relation extraction, entity linking,question generation,coreference resolution。
当前,NER有两种主流的方法。其一是基于序列标注的方法,在该方法中,句子中的每个单词被标记成一个特殊的序列(e.g., B-PER or IPER)。这种方法可以捕获相邻单词级标签之间的依赖关系,并使整个句子中预测标签的概率最大化。该种方法在历年的各种NER数据集上,均取得了SOTA。然而,NER是一个块级的识别任务。基于序列标记的NER模型,只关注于词级的信息,在识别长实体上表现并不是最优。近些年来,基于块的方法,在NER模型中得到了欢迎。它们处理段(即单词跨度)而不是单个词作为处理单元,并为每一个段分配一个特殊的标签(e.g., PER, ORG or LOC)。由于这些方法采用分段级处理,它们能够识别长实体,但是,段内的词级依赖关系通常会被忽略。
NER旨在检测文本中的实体边界和已命名实体的类型。同样的,NER任务包含两个分开的,独立的边界检测和类型预测的子任务。从我们的实验中,也发现,边界检测和类型预测是两个相关的子任务。换句话说,这两个子任务可以通过共享信息来相互作用和相互强化。(举例此处不翻译了,自己看)然而,基于序列标记的模型将边界和类型作为标签,因此这些信息不能在子任务之间共享,以提高准确性。另一方面,基于分段的模型首先检测分段,然后将它们分类为相应的类型。这些方法在段检测的过程中通常不能使用实体类型信息,并且在将这些信息从段检测传递到段分类时可能会出现错误。
本文,我们提出MIN(Modularized Interaction Network),其包括NER模块(NER Module)、边界模块(Boundary Module)、类型模块(Type Module)和交互机制 (Interaction Mechanism)。为了解决基于序列标注的长实体识别问题,并利用基于块模型的块中词级依赖关系,我们将指针网络合并到边界模块中,作为解码器,以捕获每一个单词的段级信息。然后,将这些段级信息和每个单词上相应的词级信息作为连接到基于序列标注模型的输入。
为了实现交互信息,我们提出将NER任务划分为边界检测和类型预测子任务,通过共享每个子任务的信息来提高两个子任务的性能。具体来说,我们使用两个不同的编码器从这两个子任务中提取它们不同的上下文表示,并提出了一种相互强化的相互作用机制。最后,将这些信息融合到NER模块中,以提高性能。此外,NER模块、边界模块和类型模块共享相同的词表示,我们在训练所提出的MIN模型时应用多任务训练。
综上所述,本文的主要贡献包括:
本文的整体框架如下:
模型的整体思想,是将四个隐状态进行拼接,作为最左侧的隐状态,再输入CRF解码,实现NER。
具体地:
边界模块不仅需要为NER模块提供清晰的上下文边界信息,还需要提供段信息。在这里,我们使用另一个BiLSTM作为编码器来提取不同的上下文边界信息。受BDRYBOT (Li et al., 2020a)的启发,使用带有指针网络的递归神经网络编解码器框架来检测实体段信息。BDRYBOT模型处理实体中的起始边界词,指向相应的结束边界词。跳过实体中的其他实体单词。非实体词指向一个特定的位置。该方法在边界检测任务中取得了良好的效果。然而,由于实体长度的变化,该模型缺乏批量训练的能力。另外,由于实体中每个词的段信息与起始边界词相同,如果错误地检测到起始边界词,则段内所有词的段信息都将是错误的。为了避免这个问题,我们改进了训练过程,提出了一种新的方法来获取每个单词的段信息。
训练起始边界词指向相应的结束边界词,训练句子中的其他词指向非活动的前哨词(inactive)。具体来说,我们使用另一种BiLSTM作为编码器,获得明显的边界隐藏序列HBdy=< HBdy1, HBdy 2,···,HBdy n >,并将标记词inactive的标记向量填充到隐藏序列HBdy的最后位置。然后,使用单向LSTM作为解码器,在每个时间步长j生成解码后的状态dj。为了添加额外的信息输入LSTM,我们使用当前的HBdyi,前一状态的HBdyi-1,和下一状态的HBdyi+1之和,来替代词嵌入,作为解码器的输入。
需要注意的是,第一个单词没有上一状态,最后一个单词没有下一状态,均用0向量替换,即图(b)上的灰色方块。
边界检测模块如下:
之后,用双仿射注意机制,得到每一个以i单词为左边界,j为右边界的特征表示。并使用softmax函数获取单词wi的概率来确定一个实体段以wi开始,wj结尾的概率。
与现有的 列举所有的以wi为起点,具有同等重要性的块
方法不同,我们使用概率p(wi|wj)作为以单词wi为起点,wj为终点的可信度。然后,然后将概率为p(wi|wj)的所有段求和为wj的段信息。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。