赞
踩
论文题目:Bidirectional LSTM-CRF Models for Sequence Tagging
论文来源:2015 arxiv
论文链接:https://arxiv.org/pdf/1508.01991.pdf
RNN在语言模型和语音识别等领域取得了不错的效果,RNN的结构如下图。
相比前馈神经网络,RNN引入以前的隐藏状态和当前的隐藏状态的联系,因此可以保存历史信息。隐藏层h和输出层的公式如下:
其中函数f和g分别是sigmoid和softmax激活函数,公式如下。
在这篇论文中,使用LSTM进行序列标注,LSTM是RNN的改进,可以更好地发现和挖掘数据中的长依赖。LSTM的内部结构如下:
LSTM是被实现于下面公式,σ是sigmoid函数,i,f,o,c分别是输入门、遗忘门、输出门和cell向量,维度和隐藏向量h相同,从cell向量到门向量的矩阵是对角矩阵(如Wci),因此每个门向量的元素m仅来自cell向量的元素m。
模型中使用双向的LSTM,以高效得利用过去和未来的特征,结构如图。
利用邻居标签信息去预测当前的标签的方法有两种,一种方法是束解码,如最大熵分类器和最大熵马尔科夫模型(MEMMs),另一种是CRF,它可以产生更高的标签精度。
LSTM-CRF可以高效地利用过去的输入特征经过LSTM层和句子级别的标签信息经过CRF。
[x]T1句子中以[i]T1标签开始的路径的转移分数和网络分数的公式如下,其中[A]i,j是一个连续的事件步中从i状态到j状态的转移分数。
模型训练的过程如下图,首先经过双向LSTM-CRF模型前向传播,包括前向和后向的状态传递,然后经过CRF层,最后反向传播错误从输出到输入,包括前向和后向状态的反向传递
在Penn TreeBank(PTB,宾州树库)词性标注,CoNLL 2000 语义组块识别,以及CoNLL 2003 命名实体识别三个任务中测试模型,实验数据如下图
在特征和输出之间采用全连接,以避免潜在的特征碰撞,如下图。
实验结果如下表,使用随机和Senna两种词向量对于POS和chunking任务不使用额外的数据。对于NER任务,额外使用拼写和上下文特征。
仅使用词向量的实验效果,如下表。
和不同系统比较的实验结果。
提出了命名实体识别经典的模型Bi-LSTM+CRF。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。