当前位置:   article > 正文

双向lstm_基于双向LSTM-CNNs-CRF的端到端序列标注

双向lstm模型 输入序列倒序
论文标题《End2End Sequence Labeling via Bi-directional LSTM-CNNs-CRF》

论文摘要

目前,最好的序列标注系统都需要用到领域知识,比如人工设计的特征以及数据预处理等。该论文中,引入了Bi-directional LSTM-CNNs-CRF的神经网络架构,并利用单词及字符级别的表示信息。论文中提出的系统是一种真正端到端的,不基于特征工程和数据预处理的系统,从而使得该方法在序列标注任务中具有广泛的应用。

论文作者在Penn Treebank WSJ corpus语料上测试了POS任务,在CoNLL 2003 corpus语料上测试了NER任务,分别取得了97.55%的准确率和91.21%的F1值。

论文引言

POS和NER是语言序列标注任务中典型任务。常用的方法有两类,其一是基于统计学习的方法,代表性的是HMM和CRF,这种方法通常需要人工设计特征,并利用任务相关的资源;其二是基于表示学习的方法,但基于表示学习的方法通常只是被用来作为数据增强。

该论文中提出的针对序列标注任务的神经网络架构,是一种真正的端到端的,无需特征工程、任务资源、数据预处理的方法。利用CNN抽取字符级别的信息形成字符级别的表示向量;将单词和字符的表示送入双向LSTM,用于提取单词在上下文环境中的信息;最后,将LSTM的输出送入序列化的CRF层,抽取句子的序列标注能力。作者在Penn Treebank WSJ corpus语料上测试了POS任务,在CoNLL 2003 corpus语料上测试了NER任务,分别取得了97.55%的准确率和91.21%的F1值。

神经网络结构

(1) CNN用于抽取字符级别的表示

在先前的研究工作中发现,CNN可以有效抽取单词字符的形态学特征(如单词的前缀、后缀等)形成字符级别的表示特征。网络结构如下图所示,需要注意的是虚线表示Dropout操作。

d025f9772414b5c91af1f51496f3f188.png

(2) 双向LSTM

总体来说,使用双向LSTM充分利用单词前面和后面的上下文信息,捕获句子随时间的演化信息。注:LSTM在很大程度上缓解了梯度消失、梯度放大问题,从而可以捕获远程的依赖关系。

aca901677627ea4b1241a766edcd5b3d.png

(3) CRF

引入CRF的原因在于,CRF建模了序列隐变量间的约束关系。例如,POS任务中形容词后面更有可能接名词而非动词;NER任务中,I-ORG后面不能接I-PER。很明显,CRF的隐藏层比LSTM提供了更多的信息。具体参见论文原文。

4376f37f835d1882c945a20ae8fe717b.png

模型的训练目标为最大化条件概率,如下所示。

ab5ad3e0f6d25e24f6f7d2e4544f275c.png

(4) BLSTM-CNNs-CRF

网络具体结构,如下所示。系统输入为单词的Embedding和字符的Embedding(利用CNN提取);将单词Embedding和字符Embedding拼接后送入Bi-LSTM,抽取时间序列特征;将Bi-LSTM输出送入CRF提取序列标注。

e5df8a00e319e09cea618c1104a2aeb2.png

神经网络训练

(1) 参数初始化

a) Word Embedding

分别使用了GloVe、Senna-50、Google's Word2Vec-300,实验表明GloVe的效果最好。

b) Character Embeddings

使用一致性采样,进行初始化。

48d3daca04804ce7e5177241309ba5bf.png

c) Weight Matrices and Bias Vectors

使用一致性采样,具体参见论文原文。

14cf7d8b5d3619e4257291a7dfea9380.png

(2)优化算法

论文中采用等式SGD,同时作者指出其它的优化算法,如Adam、RMSProp,在效果方面与SGD没有本质上的区别。

a) Early Stopping (早停)

利用早停方法,基于验证集取效果最好的那组参数。

b) Fine Tuning

根据序列标注任务的反馈信息,对Embedding进行优化。

c) Dropout Training

为了避免过拟合,采用Drop方法(数学上/效果上与正则化结果一致)提高系统的鲁棒性。

值得注意的是,作者指出Dropout显著提高了系统的结果。

(3)超参数优化

略去不表。

实验结果

(1) 主要结果

从下图中可以看到:BiLSTM比BiRNN效果更好;BiLSMT+CNN因为引入了字符级的特征,效果比单纯的BiLSTM效果更好;BiLSMT+CNN+CRF的效果最好,说明CRF的隐藏层确实提供了更多有用的信息。

21c336b59c34d1533c6e048b0fc1d2e5.png

(2) 与前人工作的比对

a) POS

如下图,效果有所提升。

ee8d6976f821e6455a484430755e549c.png

b) NER

这里需要注意的是百度2015的论文(Huang et al.),这篇论文首次提出利用BiLSTM+CRF实现序列标注,在当时取得了很大的进步,值得大家关注!

0bc11f57662a061d717945b4edf52b30.png

c) Word Embedding的影响

从下图中可以发现:1、GloVe的效果最好;2、NER比POS对预训练词向量的好坏更具有依赖性;同时,作者猜测Word2Vec表现不佳的原因在于,Word2Vec在训练过程中对单词的大小写敏感,而且排除了很多常见的标点符号和数字,但这篇论文中没有进行数据预处理过程,所以造成了Word2Vec单词匹配

f421801c10d71f33058ec2cef8e2171b.png

d) Dropout的影响

Dropout显著提升了输出结果!

Dropout本质上是对系统进行了正则化!

801b35281802c6dad2b44d63ab5af43c.png

e) OOV Error Analysis

这里主要是分析了在训练集、预训练词向量中未登录词对结果的影响。

c7059d977ec2f143956401cf4e54c7e9.png

实验结果如下所示,从OOBV的结果中可以发现,CRF对于未在训练集和预训练词向量中出现的单词具有更好的预测结果!

4906faed16341cbe7e8244e1dac85ce9.png

相关工作

略去不表,见论文原文。

总结与展望

略去不表,见论文原文。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/496475
推荐阅读
相关标签
  

闽ICP备14008679号