赞
踩
论文标题《End2End Sequence Labeling via Bi-directional LSTM-CNNs-CRF》
目前,最好的序列标注系统都需要用到领域知识,比如人工设计的特征以及数据预处理等。该论文中,引入了Bi-directional LSTM-CNNs-CRF的神经网络架构,并利用单词及字符级别的表示信息。论文中提出的系统是一种真正端到端的,不基于特征工程和数据预处理的系统,从而使得该方法在序列标注任务中具有广泛的应用。
论文作者在Penn Treebank WSJ corpus语料上测试了POS任务,在CoNLL 2003 corpus语料上测试了NER任务,分别取得了97.55%的准确率和91.21%的F1值。
POS和NER是语言序列标注任务中典型任务。常用的方法有两类,其一是基于统计学习的方法,代表性的是HMM和CRF,这种方法通常需要人工设计特征,并利用任务相关的资源;其二是基于表示学习的方法,但基于表示学习的方法通常只是被用来作为数据增强。
该论文中提出的针对序列标注任务的神经网络架构,是一种真正的端到端的,无需特征工程、任务资源、数据预处理的方法。利用CNN抽取字符级别的信息形成字符级别的表示向量;将单词和字符的表示送入双向LSTM,用于提取单词在上下文环境中的信息;最后,将LSTM的输出送入序列化的CRF层,抽取句子的序列标注能力。作者在Penn Treebank WSJ corpus语料上测试了POS任务,在CoNLL 2003 corpus语料上测试了NER任务,分别取得了97.55%的准确率和91.21%的F1值。
(1) CNN用于抽取字符级别的表示
在先前的研究工作中发现,CNN可以有效抽取单词字符的形态学特征(如单词的前缀、后缀等)形成字符级别的表示特征。网络结构如下图所示,需要注意的是虚线表示Dropout操作。
(2) 双向LSTM
总体来说,使用双向LSTM充分利用单词前面和后面的上下文信息,捕获句子随时间的演化信息。注:LSTM在很大程度上缓解了梯度消失、梯度放大问题,从而可以捕获远程的依赖关系。
(3) CRF
引入CRF的原因在于,CRF建模了序列隐变量间的约束关系。例如,POS任务中形容词后面更有可能接名词而非动词;NER任务中,I-ORG后面不能接I-PER。很明显,CRF的隐藏层比LSTM提供了更多的信息。具体参见论文原文。
模型的训练目标为最大化条件概率,如下所示。
(4) BLSTM-CNNs-CRF
网络具体结构,如下所示。系统输入为单词的Embedding和字符的Embedding(利用CNN提取);将单词Embedding和字符Embedding拼接后送入Bi-LSTM,抽取时间序列特征;将Bi-LSTM输出送入CRF提取序列标注。
(1) 参数初始化
a) Word Embedding
分别使用了GloVe、Senna-50、Google's Word2Vec-300,实验表明GloVe的效果最好。
b) Character Embeddings
使用一致性采样,进行初始化。
c) Weight Matrices and Bias Vectors
使用一致性采样,具体参见论文原文。
(2)优化算法
论文中采用等式SGD,同时作者指出其它的优化算法,如Adam、RMSProp,在效果方面与SGD没有本质上的区别。
a) Early Stopping (早停)
利用早停方法,基于验证集取效果最好的那组参数。
b) Fine Tuning
根据序列标注任务的反馈信息,对Embedding进行优化。
c) Dropout Training
为了避免过拟合,采用Drop方法(数学上/效果上与正则化结果一致)提高系统的鲁棒性。
值得注意的是,作者指出Dropout显著提高了系统的结果。
(3)超参数优化
略去不表。
(1) 主要结果
从下图中可以看到:BiLSTM比BiRNN效果更好;BiLSMT+CNN因为引入了字符级的特征,效果比单纯的BiLSTM效果更好;BiLSMT+CNN+CRF的效果最好,说明CRF的隐藏层确实提供了更多有用的信息。
(2) 与前人工作的比对
a) POS
如下图,效果有所提升。
b) NER
这里需要注意的是百度2015的论文(Huang et al.),这篇论文首次提出利用BiLSTM+CRF实现序列标注,在当时取得了很大的进步,值得大家关注!
c) Word Embedding的影响
从下图中可以发现:1、GloVe的效果最好;2、NER比POS对预训练词向量的好坏更具有依赖性;同时,作者猜测Word2Vec表现不佳的原因在于,Word2Vec在训练过程中对单词的大小写敏感,而且排除了很多常见的标点符号和数字,但这篇论文中没有进行数据预处理过程,所以造成了Word2Vec单词匹配
d) Dropout的影响
Dropout显著提升了输出结果!
Dropout本质上是对系统进行了正则化!
e) OOV Error Analysis
这里主要是分析了在训练集、预训练词向量中未登录词对结果的影响。
实验结果如下所示,从OOBV的结果中可以发现,CRF对于未在训练集和预训练词向量中出现的单词具有更好的预测结果!
相关工作
略去不表,见论文原文。
略去不表,见论文原文。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。