当前位置:   article > 正文

ACL2019|Named Entity Recognition using Positive-Unlabeled Learning

named entity recognition using positive-unlabeled learning

命名实体识别(NER)是许多自然语言处理任务的基本组成部分。该领域中现有的监督方法通常需要大量标记数据。在这项工作中,作者探索了仅使用未标记数据和命名实体字典来执行NER的方法。作者将任务表示为正未标记(PU, Positive-Unlabeled)学习问题,并由此提出一种PU学习算法来执行该任务。该方法的一个关键特征是它不需要字典标记句子中的每个实体,甚至不要求字典标记构成实体的所有单词,这大大降低了对字典质量的要求。文章最后对四个公共NER数据集的实验研究,证明了使用PU算法进行学习如同使用完全标记的数据进行监督学习一样,能够无偏差地且一致地估计任务损失。

论文地址:
https://arxiv.org/abs/1906.01378

引言

命名实体识别(NER)是一种标记命名实体的方法,例如非结构化文本中的人员,地点,产品和组织名称。它是许多自然语言处理任务的基本组成部分,如机器翻译,知识库构建,自动问答,搜索等。监督方法在该领域取得了巨大成功。然而,这些监督方法通常需要大规模的细粒度标注(标记句子的每个单词),这使得难以将它们应用于标记语料比较少的领域,例如生物/医学领域。
本文定义了一种PU(Positive-Unlabeled)学习算法,Positive代表已标记的实体单词数据,Unlabeled代表其余未标记的数据。此算法仅使用未标记的数据和命名的实体字典来执行NER任务。同时使用由AdaSampling算法驱动的适应方法,以丰富字典。最后,在四个NER数据集上进行实验,证明了此算法的有效性。

数据集

  1. CoNLL2003 NER共享任务数据集英文版,包含203k的训练数据集,46k的testB测试数据集,以及456k的未标记数据集。
  2. CoNLL2002西班牙语NER共享任务数据集,包含273k的训练数据集和53k的测试数据集。
  3. MUC NER数据集,包含190k的训练数据集和64k的测试数据集。
  4. 从Twitter收集整理的数据,包含4000条训练用的推文和3257条测试用的推文。

方法

标注机制

因为字典不能够保证包含句子中所有的实体单词,所以本文并没有使用传统的BIO或者BIOES标注模式,而是把标注问题转化为二分类问题进行处理。实体单词被映射到正类,非实体单词被映射到负类。

实用词典进行数据标注

作者使用最大匹配算法进行数据标注,具体过程如下:
图 1 伪码

建立PU算法分类器

作者使用神经网络结构建立PU算法分类器。
#####词语表示
上下文无关的词语表示包含三部分的特征,分别是字符级别表示 e c ( w ) e_c(w) ec(w),词级别表示 e w ( w ) e_w(w) ew(w)和人工设计的特征 e h ( w ) e_h(w) eh(w)。 作者使用单层卷积神经网络模型对字符嵌入序列进行处理,得到字符序列表示 e c ( w ) e_c(w) ec(w)。之后,作者使用经过微调的GloVe词嵌入表示作为词级别表示 e w ( w ) e_w(w) ew(w)。最后,作者定义了一个指示符,以消除大小写产生的问题。作者使用allCaps, upperInitial, lowercase, maxedCaps, noinfo五个特征来对指示符进行处理,如果任一特征被激活,则将指示符置为1,否则为0.
作者将这三部分特征串联起来(concatenate)作为词语表示,

并引入到双向LSTM神经网络模型中,得到

损失定义

得到词语表示 e ( w ∣ s ) e(w|s) e(ws),将其预测为正类的概率建模为:

其中 σ \sigma σ代表sigmoid函数, w p w_p wp是可训练的参数向量,b为偏置。
给定标签 y y y之后,预测风险的定义为:

因为 ( l ) ( f ( w ∣ s ) , y ) ∈ [ 0 , 1 ) \mathbb(l)(f(w|s),y)\in [0,1) (l)(f(ws),y)[0,1)是上确界的(upper bounded),所以最终训练损失定义为:

其中

标签推理

经过训练的PU分类器可以用来进行标签预测。因为每个实体类型有着不同的分类器,所以同一个实体单词可能被分类为不同的正类。所以作者选取概率最大的正类作为该单词的类别,同时其他类型分类器的预测归零。解决正类冲突之后,作者使用最大匹配的原则对连续实体单词进行分类,得到最终的实体单词标签预测。

扩充辞典

在PU学习中,作者使用已标记的正数据经验风险去估计正数据的期望风险。这要求正数据 x i p x_i^p xip与分布P(X|Y=1)相互独立。对于一个很小的字典来说,这个要求很难达到,所以作者使用了AdaSampling的方法进行词典扩充。此方法为不断迭代PU学习算法,并把每一次标注出的结果加入到字典中,直到字典的大小不在变化。

实验

运用4个数据集生成的命名实体字典包括2,000个人名,748个地址,353个组织名和104个MISC实体。下图为使用词典进行数据标注的结果:
图 2 使用词典进行数据标注
π p \pi_p πp代表了标记实体单词在整个训练集的实体单词中所占的比例,4个数据集的比例如下图所示:
图 3 的真值/估计值
作者选取了几个基线模型,分别是直接用词典预测(Matching),使用完全标注数据,BIOES和神经网络模型进行预测(BiLSTM),使用交叉熵作为损失函数的PU模型(uPU),没有使用非负约束并且实行字典扩大的PU模型(buPU),仅仅没使用字典扩大的PU模型(bnPU),和完整PU模型(adaPU)。除此之外还对比了斯坦福NER的基于最大熵的马尔可夫模型方法(MEMM),斯坦福条件随机场方法(CRF)还有基于神经网络的模型(BiLSTM+CRF)。具体结果如下:
图 4 不同数据集和方法的F1值

结论

本篇文章提出的PU算法使用未标记的数据和命名实体识别字典来执行NER任务,同时使用AdaSampleing的方法扩大了命名实体识别的字典。此方法创新性的使用半监督的学习方式进行NER,虽然相较监督方法,效果还有差距,但是也达到了相对较好效果,为NER在少标记语料领域的执行提供了思路。



扫码识别关注,获取更多论文解读

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/黑客灵魂/article/detail/770761
推荐阅读
相关标签
  

闽ICP备14008679号