当前位置:   article > 正文

实体识别(一)几种NER深度学习模型效果对比IDCNN+BERT+BiLISTM+CRF_实体识别模型有哪些

实体识别模型有哪些

纯实现上对比几种NER深度学习模型效果(有不严谨的地方:数据集、模型规模等),代码来源于Github上大神的贡献。

  • 实现上有三种模型
对比模型
IDCNN+CRFBiLSTM+CRF(1)BiLSTM+CRF(2)BERT+BiLSTM+CRF
参考文献文献[3]文献[3]文献[4]文献[2]
数据集100w字符100w字符200w字符100w字符

       代码在参考文献部分都附有链接~

  • 三种模型抽样对比
测试模型
句子IDCNN+CRFBiLSTM+CRF(1)BiLSTM+CRF(2)BERT+BiLSTM+CRF
于大宝的进球帮助中国队在长沙贺龙体育中心以1-0的比分获胜LOC, 长沙,  PER, 于大宝 ORG, 中国队,贺龙体育中心ORG, 中国队,长沙贺龙体育中心PER: ['于大宝'] LOC: ['长沙贺龙体育中心'] ORG: ['中国队']LOC, 长沙, 贺龙体育中心 PER, 于大宝 ORG, 中国队
普京和特朗普通了电话,一起表示了对希拉里的鄙视PER, 普京, 特朗普, 希拉里PER, 普京, 特朗普, 希拉里PER: ['普京', '特朗普', '希拉里']PER, 普京, 特朗普, 希拉里
在万达集团的老总王健林的著名采访之后,深圳出现了一家公司叫做赚它一个亿网络科技有限公司LOC, 深圳  PER, 王健林 ORG, 万达集团, 网络科技有限公司LOC, 深圳  PER, 王健林 ORG, 万达集团PER: ['王健林'] LOC: ['深圳'] ORG: ['万达集团']LOC, 深圳  PER, 王健林 ORG, 万达集团, 亿网络科技有限公司
而且冯绍峰爆料在拍摄《知否》的那段时间里,赵丽颖就吃很少,很瘦,也根本没有胃口吃,一整天钻在剧本中无法自拔。PER, 冯绍峰, 赵丽颖PER, 冯绍峰, 赵丽颖PER: ['冯绍峰', '赵丽颖']PER, 冯绍峰, 赵丽颖
中国网财经1月30日讯(记者 刘小菲)据统计,除当年9月底上市的顶固集创外,其余27只个股的收益均为负值,曲美家居则以约50%的跌幅位列倒数第4。PER, 刘小菲  LOC, 中国网PER, 刘小菲  LOC, 中国网,曲,美PER: [' 刘小菲'] LOC: ['中国']PER, 刘小菲  ORG, 中国网, 顶固集创, 曲美家居
易居研究院智库研究中心总监严跃进等业内专家分析,各地两会透露出“稳字当头”和强化预期管理的信号,表明各地楼市调控的稳定性和连续性将会继续下去。ORG, 易居研究院智库研究中心ORG, 易居研究院智库研究中心ORG: ['易居研究院智库研究中心']PER, 严跃进 ORG, 易居研究院智库研究中心
有网络消息称,滴滴将裁员25%,涉及产品技术、网约车团队等。[][][]ORG, 滴滴

   

粗略的结论:

          1) 前三种方法在抽样的结果上测试效果差别不明显

          2) BERT-BiLSTM-CRF在效果要优于前面三种方法,比如“滴滴”,“顶固集创”,“曲美家居”(后面两个是上市公司名称,如果做金融方面,可以考虑用该方法,效果还不错)

         3) BERT-BiLSTM-CRF相关参数与评测效果

  ***** Running training ***** 用GPU跑的,10min跑完
 Num examples = 20864
 Batch size = 32
 Num steps = 1956

 ***** Running evaluation*****

processed 214542 tokens with 7450 phrases; found: 7598 phrases; correct: 6894.
accuracy:  99.24%; precision:  90.73%; recall:  92.54%; FB1:  91.63
              LOC: precision:  92.06%; recall:  93.36%; FB1:  92.70  3513
              ORG: precision:  84.34%; recall:  88.04%; FB1:  86.15  2261
              PER: precision:  96.11%; recall:  96.32%; FB1:  96.21  1824

  • 三种模型大样本评测

      会基于一个问答数据集中实体识别进行评测,完成后会更新。

    ------------------------------------------------------------------------------------------------------------------------------------------

     20190315

     问答QA(二)基于BERT的知识库问答实战  https://blog.csdn.net/ai_1046067944/article/details/86707784

    ------------------------------------------------------------------------------------------------------------------------------------------

后续会更新下更新下三种模型代码运行的步骤

参考文献:

【1】如何入门命名实体识别开发 : https://www.jianshu.com/p/a903c24c01b8

【2】BERT-BiLSTM-CRF-NER: GitHub - macanv/BERT-BiLSTM-CRF-NER: Tensorflow solution of NER task Using BiLSTM-CRF model with Google BERT Fine-tuning And private Server services

【3】IDCNN/BiLSTM-CRF-NER: https://github.com/crownpku/Information-Extraction-Chinese/tree/master/NER_IDCNN_CRF

【4】BiLSTM-CRF-NER: GitHub - Determined22/zh-NER-TF: A very simple BiLSTM-CRF model for Chinese Named Entity Recognition 中文命名实体识别 (TensorFlow)

 

声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号