论文笔记 arxiv 2015|Bidirectional LSTM-CRF Models for Sequence Tagging_bi-lstm是哪一篇论文提出的?

作者：IT小白 | 2024-04-26 00:58:57

踩

bi-lstm是哪一篇论文提出的?

文章目录

1 简介

论文题目：Bidirectional LSTM-CRF Models for Sequence Tagging
论文来源：2015 arxiv
论文链接：https://arxiv.org/pdf/1508.01991.pdf

1.1 动机

2015年时很多序列标注模式是线性统计模型。

1.2 创新

提出BI-LSTM-CRF模型用于NLP序列标注任务。
该模型具有鲁棒性，很少地依赖词向量。

2 背景知识

LSTM Networks

RNN在语言模型和语音识别等领域取得了不错的效果，RNN的结构如下图。
在这里插入图片描述
相比前馈神经网络，RNN引入以前的隐藏状态和当前的隐藏状态的联系，因此可以保存历史信息。隐藏层h和输出层的公式如下：

其中函数f和g分别是sigmoid和softmax激活函数，公式如下。

在这篇论文中，使用LSTM进行序列标注，LSTM是RNN的改进，可以更好地发现和挖掘数据中的长依赖。LSTM的内部结构如下：
在这里插入图片描述
LSTM是被实现于下面公式，σ是sigmoid函数，i，f，o，c分别是输入门、遗忘门、输出门和cell向量，维度和隐藏向量h相同，从cell向量到门向量的矩阵是对角矩阵(如W_ci)，因此每个门向量的元素m仅来自cell向量的元素m。
在这里插入图片描述

Bidirectional LSTM Networks

模型中使用双向的LSTM，以高效得利用过去和未来的特征，结构如图。
在这里插入图片描述

CRF networks

利用邻居标签信息去预测当前的标签的方法有两种，一种方法是束解码，如最大熵分类器和最大熵马尔科夫模型(MEMMs)，另一种是CRF,它可以产生更高的标签精度。

3 方法

LSTM-CRF networks

LSTM-CRF可以高效地利用过去的输入特征经过LSTM层和句子级别的标签信息经过CRF。
[x]^T₁句子中以[i]^T₁标签开始的路径的转移分数和网络分数的公式如下，其中[A]_i,j是一个连续的事件步中从i状态到j状态的转移分数。
在这里插入图片描述
模型训练的过程如下图，首先经过双向LSTM-CRF模型前向传播，包括前向和后向的状态传递，然后经过CRF层，最后反向传播错误从输出到输入，包括前向和后向状态的反向传递

4 实验

在Penn TreeBank（PTB，宾州树库）词性标注，CoNLL 2000 语义组块识别，以及CoNLL 2003 命名实体识别三个任务中测试模型，实验数据如下图
在这里插入图片描述
在特征和输出之间采用全连接,以避免潜在的特征碰撞，如下图。

实验结果如下表，使用随机和Senna两种词向量对于POS和chunking任务不使用额外的数据。对于NER任务，额外使用拼写和上下文特征。

仅使用词向量的实验效果，如下表。
在这里插入图片描述
和不同系统比较的实验结果。

5 总结

提出了命名实体识别经典的模型Bi-LSTM+CRF。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/IT小白/article/detail/488157