当前位置:   article > 正文

lstm原文_论文解读——使用格框架LSTM的中文实体命名识别(上)

lstm论文原文

最近抖音很火的梗:“南京市长是不是叫江大桥?”。原文出处来了,见图1.

显然这是一个分词错误,今天要介绍的这篇论文里就完美的解决了计算机基于字符NER(实体命名识别)的缺点:未完全利用显式单词和单词序列信息。

6b1d9b9eb94f13702ee82a5fc061ec49.png

图1 词字符格框架

摘要:

  1. 本文研究了针对中文NER的格框架结构LSTM模型,该模型对输入字符系列以及词典匹配的所有可能单词进行编码。
  2. 与基于字符的方法相比,该模型显式地利用了单词和单词序列信息。 与基于单词的方法相比,该模型不会出现分段错误。
  3. 门控循环单元允许我们的模型从句子中选择最相关的字符和单词,以获得更好的NER结果。

实验表明,晶格LSTM优于基于字符和单词的方法。

引言:

  • 先提一波(Lample et al., 2016; Ma and Hovy, 2016; Chiu and Nichols, 2016; Liu et al., 2018)前辈们在英文命名实体识别的卓越贡献——LSTM-CRF模型,并将字符信息集成为单词表示。
  • 引出中文命名实体识别并提及中文分词对NER的重要影响,基于字符的中文NER比基于单词的效果好。
  • 在基于字符的中文NER的缺点(未完全利用显示单词和单词序列信息)上提出改进方案——将潜在的词信息集成到基于字符的中文NER(LSTM-CRF)中。换句话说就是通过一个句子与一个自动获取词的大词典进行匹配,得到的词来构建一个词-字符的格框架。正如图1所示,一个句子匹配出6个词,利用显示单词和单词序列信息完美的避免了“江大桥”这种错误划分。
  • 从图1就可以看出,一个句子匹配出的单词数呈指数递增,格框架LSTM结构可以自动控制从句子开始到结尾的信息流。即门控单元动态的将信息从不同的路径传达到每个字符。并且训练该模型后,可以自动学习并从上下文查找更多有用的单词,提升NER性能。
aa5cf4752ca703078625dd84d6177127.png

相关工作

  • 说明本文方法是与使用NER的神经网络现有方法是一致的(保证方法的正确性),从03的LSTM方法吹到16年的基于字符的LSTM方法,再将其与本文提出的方法进行比较,毫无疑问本文最优。
  • 接下来介绍中文NER为啥需要更好的利用单词信息并提及了分词和NER的双重分解和多任务学习,而本模型不需要受限于上述模型的分词数据集和分词错误,也不考虑多任务的设置。因为不需要分词器。
  • NER使用外部信息源(特别是词典)是广泛接受的,枚举了一些前辈论文进行论证,本文在大型已分段文本上通过预训练词向量词典来利用外部信息源。该方式理论上是正确的,实验上是有效的。
  • 格框架结构的神经网络模型被认为是树状神经网络向DAG的延伸,已经被用于建模动力学、依存话语DAGs等工作,与现有工作比较,本模型是第一个融合字符和词典中的词的格框架神经网络模型,也是第一个使用词-字符格框架来进行无分词的中文NER.

小结

格框架起源于1968年Fillmore提出的格框架模型,该模型在分析句子语义时仅以动词为中心 ,用它表达中文自然语言不是十分方便,后续经过很多改进,出现了格框架树等多种结构。在论文的摘要引言和相关工作的介绍中,我们基本可以把握整篇论文的概要,针对NER目前的主要问题作者采取的哪种有效的方法,并且也了解了该方法较于其他类似方法的优点。下一篇详解该模型的搭建

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/496484
推荐阅读
相关标签
  

闽ICP备14008679号