当前位置:   article > 正文

16.Modularized Interaction Network for Named Entity Recognition 阅读笔记

modularized interaction network for named entity recognition模型的缺点是什么

Modularized Interaction Network for Named Entity Recognition

论文地址:https://aclanthology.org/2021.acl-long.17.pdf

Author Information::Fei Li1, Zheng Wang2∗, Siu Cheung Hui2, Lejian Liao1, Dandan Song1∗,Jing Xu1, Guoxiu He3, Meihuizi Jia1

Institutions Information:

     1 Beijing Institute of Technology, China
     2 Nanyang Technological University, Singapore
     3 Wuhan University, China

ACL 2021

Abstract

        尽管现有的NER模型已取得了比较优的性能,他们亦有一些不足之处。基于序列标注的NER模型在识别长实体时表现得并不是很好,因为他们(模型)只关注词级信息。基于块的(segment-based)NER模型,关注于处理segment的信息,而不是关注无法捕获段内的词级依赖关系的单个词。此外,由于边界检测和类型预测在NER任务中可能可以相互协作,因此,这两个子任务通过共享其信息来相互强化。
        本文,我们提出一个新颖的MIN(Modularized Interaction Network)模型,不仅利用了块级信息和词级依赖,而且,结合一种交互机制来支持检测和类型预测之间的信息共享,以提高NER的性能。我们也在NER的三个数据集上做了实验。实验结果表明,本文提出的新模型达到了SOTA。

Introduction

       NER是NLP的基础任务之一,其任务是发现并识别出命名实体,比如 PER(person),LOC(location),ORG(organization)。它也被用于很多下游任务,比如relation extraction, entity linking,question generation,coreference resolution。
        当前,NER有两种主流的方法。其一是基于序列标注的方法,在该方法中,句子中的每个单词被标记成一个特殊的序列(e.g., B-PER or IPER)。这种方法可以捕获相邻单词级标签之间的依赖关系,并使整个句子中预测标签的概率最大化。该种方法在历年的各种NER数据集上,均取得了SOTA。然而,NER是一个块级的识别任务。基于序列标记的NER模型,只关注于词级的信息,在识别长实体上表现并不是最优。近些年来,基于块的方法,在NER模型中得到了欢迎。它们处理段(即单词跨度)而不是单个词作为处理单元,并为每一个段分配一个特殊的标签(e.g., PER, ORG or LOC)。由于这些方法采用分段级处理,它们能够识别长实体,但是,段内的词级依赖关系通常会被忽略。
        NER旨在检测文本中的实体边界和已命名实体的类型。同样的,NER任务包含两个分开的,独立的边界检测和类型预测的子任务。从我们的实验中,也发现,边界检测和类型预测是两个相关的子任务。换句话说,这两个子任务可以通过共享信息来相互作用和相互强化。(举例此处不翻译了,自己看)然而,基于序列标记的模型将边界和类型作为标签,因此这些信息不能在子任务之间共享,以提高准确性。另一方面,基于分段的模型首先检测分段,然后将它们分类为相应的类型。这些方法在段检测的过程中通常不能使用实体类型信息,并且在将这些信息从段检测传递到段分类时可能会出现错误。
        本文,我们提出MIN(Modularized Interaction Network),其包括NER模块(NER Module)、边界模块(Boundary Module)、类型模块(Type Module)和交互机制 (Interaction Mechanism)。为了解决基于序列标注的长实体识别问题,并利用基于块模型的块中词级依赖关系,我们将指针网络合并到边界模块中,作为解码器,以捕获每一个单词的段级信息。然后,将这些段级信息和每个单词上相应的词级信息作为连接到基于序列标注模型的输入。
        为了实现交互信息,我们提出将NER任务划分为边界检测和类型预测子任务,通过共享每个子任务的信息来提高两个子任务的性能。具体来说,我们使用两个不同的编码器从这两个子任务中提取它们不同的上下文表示,并提出了一种相互强化的相互作用机制。最后,将这些信息融合到NER模块中,以提高性能。此外,NER模块、边界模块和类型模块共享相同的词表示,我们在训练所提出的MIN模型时应用多任务训练。

综上所述,本文的主要贡献包括:

  • 本文提出一个新颖的MIN模型,充分利用来自于基于块的 模型的块信息和基于序列标注的词级依赖,增强NER任务的性能。
  • 本文提出的MIN模型包含NER模块(NER Module)、边界模块(Boundary Module)、类型模块(Type Module)和交互机制 (Interaction Mechanism)。我们提出将边界检测和类型预测分离开,成为两个子任务。通过共享两个子任务的信息来实现交互,从而达到SOTA。
  • 我们在三个NER基准数据集CoNLL2003、WNUT2017和JNLPBA上进行了广泛的实验,以评估所提出的MIN模型的性能。实验结果表明,我们的MIN模型已经取得了最先进的性能,并优于现有的基于神经的NER模型。

本文的整体框架如下:
在这里插入图片描述
模型的整体思想,是将四个隐状态进行拼接,作为最左侧的隐状态,再输入CRF解码,实现NER。
具体地:

  • 最左侧NER Module是整体(B-PER,B-PER)识别,不是单独的BIO标签,也不是单独的Type(PER、ORG、LOC)标签;
  • 中间的Boundary Module,可以细分为下侧的编码器和上侧的解码器。编码器获取词级之间的依赖信息,并将隐状态传输给最左侧进行拼接。上侧是解码器,是为了获取块的信息,也将其输入到最左侧,进行向量的拼接。
  • 最右侧的Type Module模块,是为了识别类型信息,即识别出PER、ORG、LOC信息。
  • 此外,Type module 还与Boundary module模块的编码器之间有一个交互互相促进,增强。
Boundary Module

边界模块不仅需要为NER模块提供清晰的上下文边界信息,还需要提供段信息。在这里,我们使用另一个BiLSTM作为编码器来提取不同的上下文边界信息。受BDRYBOT (Li et al., 2020a)的启发,使用带有指针网络的递归神经网络编解码器框架来检测实体段信息。BDRYBOT模型处理实体中的起始边界词,指向相应的结束边界词。跳过实体中的其他实体单词。非实体词指向一个特定的位置。该方法在边界检测任务中取得了良好的效果。然而,由于实体长度的变化,该模型缺乏批量训练的能力。另外,由于实体中每个词的段信息与起始边界词相同,如果错误地检测到起始边界词,则段内所有词的段信息都将是错误的。为了避免这个问题,我们改进了训练过程,提出了一种新的方法来获取每个单词的段信息。
训练起始边界词指向相应的结束边界词,训练句子中的其他词指向非活动的前哨词(inactive)。具体来说,我们使用另一种BiLSTM作为编码器,获得明显的边界隐藏序列HBdy=< HBdy1, HBdy 2,···,HBdy n >,并将标记词inactive的标记向量填充到隐藏序列HBdy的最后位置。然后,使用单向LSTM作为解码器,在每个时间步长j生成解码后的状态dj。为了添加额外的信息输入LSTM,我们使用当前的HBdyi,前一状态的HBdyi-1,和下一状态的HBdyi+1之和,来替代词嵌入,作为解码器的输入。
在这里插入图片描述需要注意的是,第一个单词没有上一状态,最后一个单词没有下一状态,均用0向量替换,即图(b)上的灰色方块。
边界检测模块如下:
在这里插入图片描述
之后,用双仿射注意机制,得到每一个以i单词为左边界,j为右边界的特征表示。并使用softmax函数获取单词wi的概率来确定一个实体段以wi开始,wj结尾的概率。
在这里插入图片描述

与现有的 列举所有的以wi为起点,具有同等重要性的块
方法不同,我们使用概率p(wi|wj)作为以单词wi为起点,wj为终点的可信度。然后,然后将概率为p(wi|wj)的所有段求和为wj的段信息。
在这里插入图片描述

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop】
推荐阅读
相关标签
  

闽ICP备14008679号