当前位置:   article > 正文

论文笔记 arxiv 2015|Bidirectional LSTM-CRF Models for Sequence Tagging_bi-lstm是哪一篇论文提出的?

bi-lstm是哪一篇论文提出的?

1 简介

论文题目:Bidirectional LSTM-CRF Models for Sequence Tagging
论文来源:2015 arxiv
论文链接:https://arxiv.org/pdf/1508.01991.pdf

1.1 动机

  • 2015年时很多序列标注模式是线性统计模型。

1.2 创新

  • 提出BI-LSTM-CRF模型用于NLP序列标注任务。
  • 该模型具有鲁棒性,很少地依赖词向量。

2 背景知识

LSTM Networks

RNN在语言模型和语音识别等领域取得了不错的效果,RNN的结构如下图。
在这里插入图片描述
相比前馈神经网络,RNN引入以前的隐藏状态和当前的隐藏状态的联系,因此可以保存历史信息。隐藏层h和输出层的公式如下:
在这里插入图片描述
其中函数f和g分别是sigmoid和softmax激活函数,公式如下。
在这里插入图片描述
在这篇论文中,使用LSTM进行序列标注,LSTM是RNN的改进,可以更好地发现和挖掘数据中的长依赖。LSTM的内部结构如下:
在这里插入图片描述
LSTM是被实现于下面公式,σ是sigmoid函数,i,f,o,c分别是输入门、遗忘门、输出门和cell向量,维度和隐藏向量h相同,从cell向量到门向量的矩阵是对角矩阵(如Wci),因此每个门向量的元素m仅来自cell向量的元素m。
在这里插入图片描述

Bidirectional LSTM Networks

模型中使用双向的LSTM,以高效得利用过去和未来的特征,结构如图。
在这里插入图片描述

CRF networks

利用邻居标签信息去预测当前的标签的方法有两种,一种方法是束解码,如最大熵分类器和最大熵马尔科夫模型(MEMMs),另一种是CRF,它可以产生更高的标签精度。

3 方法

LSTM-CRF networks

LSTM-CRF可以高效地利用过去的输入特征经过LSTM层和句子级别的标签信息经过CRF。
[x]T1句子中以[i]T1标签开始的路径的转移分数和网络分数的公式如下,其中[A]i,j是一个连续的事件步中从i状态到j状态的转移分数。
在这里插入图片描述
模型训练的过程如下图,首先经过双向LSTM-CRF模型前向传播,包括前向和后向的状态传递,然后经过CRF层,最后反向传播错误从输出到输入,包括前向和后向状态的反向传递
在这里插入图片描述

4 实验

在Penn TreeBank(PTB,宾州树库)词性标注,CoNLL 2000 语义组块识别,以及CoNLL 2003 命名实体识别三个任务中测试模型,实验数据如下图
在这里插入图片描述
在特征和输出之间采用全连接,以避免潜在的特征碰撞,如下图。
在这里插入图片描述
实验结果如下表,使用随机和Senna两种词向量对于POS和chunking任务不使用额外的数据。对于NER任务,额外使用拼写和上下文特征。
在这里插入图片描述
仅使用词向量的实验效果,如下表。
在这里插入图片描述
和不同系统比较的实验结果。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5 总结

提出了命名实体识别经典的模型Bi-LSTM+CRF。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/488157
推荐阅读
相关标签
  

闽ICP备14008679号