赞
踩
在一些语料资源匮乏的语种中,可用的数据可能只是部分标注的(部分NE正确标注,部分NE被标注为O),如下图所示:
其中标签为NE的token可视为positive instance,标签为O的的token被视为negtive instance,被错分为O的NE就称为False Negative。本文提出了一种基于约束驱动的迭代算法(constraint-driven iterative algorithm)来学习发现噪声数据中的Negative False样例并降低他们的权重,从而降低噪声在训练时对NER模型的影响。
本文提出的方法称为CBL,与之相似的已有工作为CoDL:Constraint Driven Learning(Chang et al, 2007)。该方法的目的是对所有标记为O的tokens赋予一个权重,false negative的具有较低(接近0)的权重,而其它O则具有较高的权重(接近1)。
解决训练样本中带有噪声的方法一般有两种:
(1)找到false negative样例并更正他们的标签。
(2)找到false negative样例并剔除他们。
本文采用了第(2)种方法,这是由于O标签的token在训练数据集中占据多数,即使错误地剔除一部分O也不会造成明显负面影响。
CBL分为两个阶段:
(1)模仿CoDL,采用约束循环算法训练一个二元分类器
λ
\lambda
λ,训练流程是一个train-predict-infer循环,如下所示:
(2)使用训练好的二元分类器 λ \lambda λ对每个样例赋予权重,公式如下:
v
i
=
{
1.0
i
f
x
i
∈
P
P
λ
(
y
i
=
O
∣
x
i
)
i
f
x
i
∈
N
v_i=
本文的一个贡献是上述流程的inference step(第6行),使用了Integer Linear Program(ILP),其中约束是基于实体比例b(entity ratio),公式为:
b
=
∣
P
∣
∣
P
∣
+
∣
N
∣
b = \frac{|P|}{|P| + |N|}
b=∣P∣+∣N∣∣P∣
已有工作显示,在fully-annotated数据集中实体率一般为
0.09
±
0.05
0.09 \pm 0.05
0.09±0.05。
对于带权重的训练集,实体率可用如下公式计算:
b
=
∣
P
∣
∣
P
∣
+
∑
i
∈
N
v
i
b = \frac{|P|}{|P| + \sum_{i \in N}v_i}
b=∣P∣+∑i∈Nvi∣P∣
还可以通过乘于一个
γ
\gamma
γ因子来修改实体率,公式如下:
b
∗
=
∣
P
∣
∣
P
∣
+
γ
∑
i
∈
N
v
i
b^* = \frac{|P|}{|P| + \gamma\sum_{i \in N}v_i}
b∗=∣P∣+γ∑i∈Nvi∣P∣
可计算
γ
\gamma
γ为:
γ
=
(
1
−
b
∗
)
∣
P
∣
b
∗
∑
i
∈
N
v
i
\gamma = \frac{(1-b^{*})|P|}{b^*\sum_{i \in N}v_i}
γ=b∗∑i∈Nvi(1−b∗)∣P∣
为了获得目标实体率
b
∗
b^*
b∗,我们可以将
N
N
N中样例权重乘于放缩因子
γ
\gamma
γ,得到:
v
∗
=
γ
v
i
v^* = \gamma v_i
v∗=γvi
约束条件ILP如下图所示:
等式(8)中 y 0 i y_{0i} y0i和 y 1 i y_{1i} y1i分别表示token i i i对应的是negative还是positive标签。 C 0 i C_{0i} C0i和 C 1 i C_{1i} C1i根据二元分类器 λ \lambda λ的最后一次预测分数得到。 δ \delta δ表示允许较小的软间隔, ξ ≥ 0.99 \xi \geq 0.99 ξ≥0.99。
NER模型使用了以下两种:
(1)非神经网络模型:Cogcomp NER(Ratinov and Roth, 2009; Khashabi et al., 2018),使用了Ratinov and D. Roth. 2009. Design challenges and misconceptions in named entity recognition中的特征,更改了权重更新公式:
w
=
w
+
α
v
i
y
i
(
w
T
x
i
)
\textbf{w} = \textbf{w} + \alpha v_iy_i(\textbf{w}^Tx_i)
w=w+αviyi(wTxi)
(2)神经网络模型:基于BiLSTM-CRF,为了将权重加入到CRF训练中,参考了Zhanming Jie, et al. 2019. Better modeling of incomplete annotations for named entity recognition的方法,公式如下:
使用了如下8中语言的数据集,并根据以下两种人工扰动(Artificial Perturbation)策略模拟噪声:
(1)降低recall,通过将某些实体全部替换成O得到,直到得到满足要求的recall;
(2)降低precision,在随机的起始位置并且选择随机1-3的长度作为一个NE,直到得到满足要求precision。
本文提出了一种基于约束驱动的迭代算法CBL对部分标注数据赋予权重,以降低错误分类的Negative False样例在训练NER模型时的影响。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。