赞
踩
一篇来自2022年TKDE的有关NER综述的文章,也算是我接触NER以来的第二篇文章,其中第一篇是有关图神经网络在NER中的应用,由于没有基础知识,踩了许多坑,在汇报的时候很多概念也没能阐述清楚,这次通过阅读综述的方式,来对NER领域进行一个全面完整的认识,希望能在这篇CCF A的期刊中得到收获。
命名实体识别(NER)的任务是从属于预定义语义类型的文本中识别出实体类型(mentions of rigid designators)。
这里的原文如下:
Named entity recognition (NER) is the task to identify mentions of rigid designators from text belonging to predefined semantic types such as person, location, organization etc.
读起来十分拗口,但确实很重要,用白话来解释就是,对于一个给定语义定义信息的文本(不是乱序无意义的文本信息),识别出其中的实体类型,如人物、位置、组织等。
意义: 总是作为预训练任务为下游fine-tuning引入先验知识。
文章结构:
NE的定义: A NE is a proper noun, serving as a name for something or someone
Rigid designator: 包括专有名称和自然术语,如生物物种和物质。
NE分类:
Techniques in NER:
Motivation:
Contribution:
3. 以表格的形式整合NER语料库和来自工业界或学术界现成的NER系统。
4. 全面调查了DL在NER中的应用以及当前代表性方法。
5. 基于DL的NER新的分类方法:输入分布式化表示、上下文编码、标签解码。
NER is the process of locating and classifying named entities in text into predefined entity categories(将文本中的命名实体定位归类到预定义的实体类别中)。
具体来说,给定tokens:
s
=
<
w
1
,
w
2
,
.
.
.
,
w
N
>
s=<w_1,w_2,...,w_N>
s=<w1,w2,...,wN>
Output a list of tuples
<
I
s
,
I
e
,
t
>
<I_s, I_e, t>
<Is,Ie,t>,每个tuple都是一个s中的命名实体。
I
s
I_s
Is和
I
e
I_e
Ie分别是命名实体的起点和终点index,
t
t
t是实体类别。
NER任务
为什么NER对下游任务重要,以搜索任务为例,71%的查询都是带有实体的,所以语义搜索可以帮助搜索引擎更好理解用户的意图,为用户提供更好的搜索结果,同时还可以进一步增强用户体验,如查询推荐,查询补齐,实体卡片。
Datasets
高质量的注释对模型学习和评估都至关重要。
Tags表示实体类型的数量。
两个最近常用的数据集:
Tools
NER系统通过模型的输出和标注进行比较得到评估结果。比较的方式有:
NER任务涉及识别实体边界和实体类型。精确匹配要求边界和类型都和事实相匹配时才认为命名实被正确识别。
大部分NER系统涉及多种实体类型,因此经常要评估所有类型的性能。
常用的方法:
后者在语料库large classes场景下,容易受到识别质量的严重影响。
MUC-6定义了一种宽松的匹配评估:
ACE定义了复杂的评估procedure:
传统主流NER方法:
基于规则的NER系统依赖于人工制定的规则。可以根据领域特定词典和语义、句法规则设计。
优点: 词典详尽时,系统运行良好。
缺点: 词典不完整,不具备迁移性。
典型的无监督方法是聚类。基于聚类的NER系统根据上下文相似性从聚类组中提取NE。
核心思想: 在大型语料库上计算的词汇资源、词汇模式和统计数据可以推断NE。
优点:没有监督标签。
缺点:模型性能不高,只能依据浅层的语义信息进行聚类。
应用监督学习方法,NER被用于token级别多分类或序列标记任务。
过程:给定标签数据,特殊设计的特征用于表示所有的样本。利用机器学习算法来学习模型来挖掘数据中的隐藏的相似模式。
特征工程在监督学习中至关重要。
经典模型:隐马尔可夫模型,决策树,SVM(预测时不考虑neighbor),条件随机场(是一种判别式概率模型,考虑上下文信息,广泛应用NER)。
既然条件随机场能利用上下文信息,为什么还要用DL?
CRF是线性链,只能挖掘到表层的信息,而DL的非线性特性可以挖掘深层次复杂特征。
相比于传统机器学习方法,基于DL的NER有利于自动发现隐藏特征。
Strength:
Why a new taxonomy?
现有的分类基于字符级、词级编码和标签解码。词级编码器的概念是不准确的,因为词级表征(和字符级表征)用于原始特征和捕捉标签解码的上下文依赖。
对单词的直接表示的一个方法是one-hot编码,两个词表示完全不同且正交。分布式表示可以自动从文本中学习,捕捉单词语义和句法的属性,这些信息在Input阶段并不显式存在。
通常采用无监督算法进行预训练
来得到词级表示,这为下游任务引入了先验知识。常用的词向量:
词素是构成词的最小、意义上不能再分的单位,如“日”、“月”包含一个词素,“汽车”、“电器”包含两个词素。
两种典型架构:
过程: 字符序列——>CNN or RNN——>character-level representations
用法:
此外,使用字符级的RNN语言模型可以为具体语境的上下文生成上下文Embedding,也就是说不同语境下的同一个词根具有不同的Embedding。
这是一种将基于DL的表示和基于特征的表示混合的方法,附加的基于特征的信息包括:
添加额外信息优势是提高模型性能,代价是可能会损害模型的通用性。
其中基于transformer的双向编码预训练语言模型BERT也被归类到输入混合表示类型中,它的输入部分由token Embedding、segment Embedding、position Embedding组成。
广泛使用的上下文编码器框架:
以一个sentence approach network的方法作为例子:
一个有趣的研究是Strubell在Fast and accurate entity recognition with iterated dilated convolutions中提出的迭代膨胀卷积神经网络,相对于传统的CNN有更好的处理大的上下文和结构预测的能力。此外ID-CNNs允许固定深度的卷积层并行运行,比Bi-LSTM-CRF在相同的accuracy下快了14-20倍。
递归神经网络是非线性自适应模型,通过按照拓扑顺序遍历给定结构来学习深度结构化信息。具有树状结构。
为什么要使用递归神经网络?
典型的顺序标记法很少考虑句子的短语结构。
双向递归:
PS:虽然从理论上看递归神经网络很有道理,但是从实验来看结果并不好。
用来描述词、语句乃至于整个文档这些不同的语法单元的概率分布的模型。
给定token序列
(
t
1
,
t
2
,
.
.
.
,
t
N
)
(t_1,t_2,...,t_{N})
(t1,t2,...,tN),前向语言模型通过给定历史记录
(
t
1
,
.
.
.
,
t
k
−
1
)
(t_1,...,t_{k-1})
(t1,...,tk−1)给当前token
t
k
t_k
tk建模计算序列的概率。
p
(
t
1
,
t
2
,
.
.
.
,
t
N
)
=
∏
k
=
1
N
p
(
t
k
∣
t
1
,
t
2
,
.
.
.
,
t
k
−
1
)
p(t_1,t_2,...,t_N)=\prod^N_{k=1}p(t_k|t_1,t_2,...,t_{k-1})
p(t1,t2,...,tN)=k=1∏Np(tk∣t1,t2,...,tk−1)
反向语言模型与前向语言模型类似,除了以相反的顺序遍历序列,根据其未来上下文预测先前的token:
p
(
t
1
,
t
2
,
.
.
.
,
t
N
)
=
∏
k
=
1
N
p
(
t
k
∣
t
k
+
1
,
t
t
+
2
,
.
.
.
,
t
N
)
p(t_1,t_2,...,t_N)=\prod^N_{k=1}p(t_k|t_{k+1},t_{t+2},...,t_{N})
p(t1,t2,...,tN)=k=1∏Np(tk∣tk+1,tt+2,...,tN)
上述过程实际上就是RNN的双向过程,将前向后向的上下文表示组合起来作为token
t
k
t_k
tk在语言模型的最终Embedding。
多目标语言模型
Rei等人提出的多任务学习框架,任务是预测[previous token, the current tag, the next token],这种添加学习任务的模型鼓励系统学习更丰富的特征表示,然后将其重新用于序列标记。
LMLSTM-CRF
两个模型: 语言模型和序列标注模型,分别作序列预测和词性标注任务。两个模型共享字符层信息。
过程: 字符级Embedding、预训练词级Embedding、语言模型Embedding拼接起来喂入词级LSTM中。
多任务学习是引导语言模型学习特定任务知识的有效手段。
Transformer采用了堆叠的自注意力机制、全连接层为编码器和解码器构造基本块。
GPT
Transformer的decoder结构,基于mask-attention,每个输入只能看到前面输入的词。two-stage训练过程。
BERT
Transformer的encoder结构,和GPT不同,是双向编码器,每层输入都能够学习到整个输入的信息。
以上使用Transformer进行预训练的语言模型正成为NER的新范式。
优势:
标签解码以上下文相关的表示作为输入,并生成与输入序列相对应的标签序列。
四种架构:
MLP+Softmax将序列标注任务转化为多分类任务。每个词语都是独立预测,不考虑其邻居。
CRF广泛应用于基于特征的监督学习方法,主流的NER模型中,CRF是标签解码器最常见的选择,并且在CoNLL03和OntoNotes5.0两个数据集上达到了SOTA。
Why CRF?
由于CRF是机器学习上的概念,所以这里必须要对其进行一下表述,便于理解encoder层的输出在CRF中具体经过了怎样的映射得到了最终的标记结果。这里以BiLSTM-CRF模型为例进行阐述。
那么就有问题了,既然BiLSTM已经输出每个标签的得分了,就按照得分最大的选择呗。那么来看第二张图,显然这次的输出结果是无效的。这就是CRF层的作用,从训练数据中学到约束确保输出是有效的。
这样的约束条件包括:
How to work?
两种类型得分:
Transition矩阵是学习得到的,初始时随机生成,通过CRF损失函数学习,CRF损失函数由真实路径得分和所有可能路径的总得分组成。在所有可能的路径中,真实路径的得分应该是最高的。
缺点: CRF不能完全利用段级信息(一般人工切分),因为段的内部属性不能用词级表示完全编码。
解决方法: 采用段而不是词作为特征提取的最基本单位,词级标签用于提取segment分数,同时利用词级信息和段级信息来计算segment的得分。
Segment-level又是一个新的概念,Segment-Level Sequence Modeling using Gated Recursive Semi-Markov Conditional Random Fields将其理解为连续的word组成的集合,也就是一句话或者短语。那么如何得到segment呢,可以不同的句子构成segment的集合,但是不同的句子长度可能不同,要加padding,也可以固定切分,但是会损失segment中的信息。
优势:
当前隐向量=当前输入+前一个输出+隐向量
缺点: 贪婪编码,当前解码只有在上一个解码完成时才能开始,不能并行计算。
指针网络应用RNN模型学习输出序列的条件概率。它通过使用softmax的概率分布作为指针来表示可变长度字典。
它是先将序列分成块(即实体范围)作为NER任务,然后再进行分类,做的是Sequence tags。通常是Seq2seq架构。
根据表三,获得如下的信息:
性能比较:
架构比较(从input、编码器、解码器):
本节调查了最近应用在NER中的深度学习技术。
根据3.3.4的内容,多任务学习比单独任务学习有更好的效果。
迁移学习旨在利用从源域中学到的知识在目标域上执行机器学习任务。
Why And How?
以Transfer learning for sequence tagging with hierarchical recurrent networks提出的方法为例,研究步骤如下:
主动学习背后的关键思想是,如果允许机器学习算法选择从中学习的数据,那么它可以用更少的训练数据表现得更好。所以主动学习可以降低数据标注的成本。
强化学习 (RL) 是受行为主义心理学启发的机器学习的一个分支,它关注软件代理如何在环境中采取行动以最大化某些累积奖励。
三个关键的组成:
也能被建模成一个随机有限状态机,具有输入(来自环境的观察)和输出(对环境的行动),由两部分组成:
解决方法:
selector可以在reward的指导下进行训练,确定哪些句子被正确标记。
对抗学习是在对抗性示例上显式训练模型的过程。目的是让模型足够健壮(提高模型泛化能力)减少测试错误。
组成:
在NER中,对抗样本通常两种方式产生:
注意力机制基于人类的视觉注意力。人们通常关注图像的某个区域,而感知周围区域。注意力机制可以捕捉输入中信息量最大的元素。
Attention在NER中的应用在第三节有大量的介绍,可以显著说明Attention在NER任务中的优越性。
模型方面:
数据标注方面:
非正式文本和未知实体:
本次调查中包括了NER研究的背景、传统方法在NER中的应用、当前最新的基于DL的方法、挑战与未来展望。具体内容详见正文内容。
https://arxiv.org/pdf/1812.09449.pdf
https://aclanthology.org/C18-1183.pdf
https://blog.csdn.net/m0_53292725/article/details/124452570
https://blog.csdn.net/qq_36426650/article/details/84668741
https://zhuanlan.zhihu.com/p/526095157
https://zhuanlan.zhihu.com/p/525584690
https://zhuanlan.zhihu.com/p/141088583
https://blog.csdn.net/qq_39388410/article/details/108940100
https://zhuanlan.zhihu.com/p/529202278
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。