当前位置:   article > 正文

bilstm+crf中文分词_基于Bert-NER构建特定领域的中文信息抽取框架(上)

bert-ner 指代消解

2c79e1165b2a68f0eea4137cf2987235.png

导语:

知识图谱(Knowledge Graph)主要由实体、关系和属性构成,而信息抽取(Information Extraction)作为构建知识图谱最重要的一个环节,目的就是从文本当中抽取出三元组信息,包括“实体-关系-实体”以及“实体-属性-实体”两类。然后将抽取后的多个三元组信息储存到关系型数据库(neo4j)中,便可得到一个简单的知识图谱。

本文通过多个实验的对比发现,结合Bert-NER和特定的分词、词性标注等中文语言处理方式,获得更高的准确率和更好的效果,能在特定领域的中文信息抽取任务中取得优异的效果。

fe5b866ad5fbef1a50cd10498da59b30.png
1 信息抽取和知识图谱

目录

1 命名实体识别
Bert-BiLSTM-CRF命名实体识别模型
NeuroNER和BertNER的中文NER对比
Bert-NER在小数据集下训练的表现 2 中文分词与词性标注
(Jieba、Pyltp、PkuSeg、THULAC)中文分词和词性标注工具性能对比
分词工具与BertNER结合使用的性能 3 中文指代消解
基于Stanford coreNLP的指代消解模型
基于BertNER的中文指代消解框架 4 中文信息提取系统
中文信息抽取框架测试结果

一、命名实体识别

1.1 综述:

命名实体识别(Name Entity Recognition)是获取三元组中的实体的关键。命名实体指的是文本中具有特定意义或者指代性强的实体,常见的包括人名、地名、组织名、时间、专有名词等。就目前来说,使用序列标注的方法能够在NER任务中获得比较优异的效果,相对来说比较成熟。

452515ef4254e5b53451c629f30c1bcc.png
2 NER发展趋势图

序列标注任务,即在给定的文本序列上预测序列中需要作出标注的标签。处理方式可简单概括为:先将token从离散one-hot表示映射到低维空间中成为稠密的embedding,随后将句子的embedding序列输入到RNN中,使用神经网络自动提取特征以及Softmax来预测每个token的标签。

本文对比了基于Bert的命名实体识别框架和普通的序列标注框架在模型训练、实体预测等方面的效果,并对基于小数据集的训练效果做出实验验证。

1.2模型:

1.2.1 Word Embedding-BiLSTM-CRF:

众多实验表明,该结构属于命名实体识别中最主流的模型,代表的工具有:[NeuroNER](https://github.com/Franck-Dernoncourt/NeuroNER)。它主要由Embedding层(主要有词向量,字向量以及一些额外特征)、双向LSTM层、以及最后的CRF层构成,而本文将分析该模型在中文NER任务中的表现。

be672f6c638bd4118dae901a2e866608.png
3 “词向量+BiLSTM+CRF”三层模型构造图

注:NER任务需要得到实体词的输出,所以使用字向量作为输入。

1.2.2 Bert-BiLSTM-CRF:

随着Bert语言模型在NLP领域横扫了11项任务的最优结果,将其在中文命名实体识别中Fine-tune必然成为趋势。它主要是使用bert模型替换了原来网络的word2vec部分,从而构成Embedding层,同样使用双向LSTM层以及最后的CRF层来完成序列预测。详细的使用方法可参考:[基于BERT预训练的中文NER](https://blog.csdn.net/macanv/article/details/85684284)

1.3 NeuroNER和BertNER的中文NER实验

1.3.1实验数据

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/575628
推荐阅读
相关标签
  

闽ICP备14008679号