赞
踩
纯实现上对比几种NER深度学习模型效果(有不严谨的地方:数据集、模型规模等),代码来源于Github上大神的贡献。
对比 | 模型 | |||
IDCNN+CRF | BiLSTM+CRF(1) | BiLSTM+CRF(2) | BERT+BiLSTM+CRF | |
参考文献 | 文献[3] | 文献[3] | 文献[4] | 文献[2] |
数据集 | 100w字符 | 100w字符 | 200w字符 | 100w字符 |
代码在参考文献部分都附有链接~
测试 | 模型 | |||
句子 | IDCNN+CRF | BiLSTM+CRF(1) | BiLSTM+CRF(2) | BERT+BiLSTM+CRF |
于大宝的进球帮助中国队在长沙贺龙体育中心以1-0的比分获胜 | LOC, 长沙, PER, 于大宝 ORG, 中国队,贺龙体育中心 | ORG, 中国队,长沙贺龙体育中心 | PER: ['于大宝'] LOC: ['长沙贺龙体育中心'] ORG: ['中国队'] | LOC, 长沙, 贺龙体育中心 PER, 于大宝 ORG, 中国队 |
普京和特朗普通了电话,一起表示了对希拉里的鄙视 | PER, 普京, 特朗普, 希拉里 | PER, 普京, 特朗普, 希拉里 | PER: ['普京', '特朗普', '希拉里'] | PER, 普京, 特朗普, 希拉里 |
在万达集团的老总王健林的著名采访之后,深圳出现了一家公司叫做赚它一个亿网络科技有限公司 | LOC, 深圳 PER, 王健林 ORG, 万达集团, 网络科技有限公司 | LOC, 深圳 PER, 王健林 ORG, 万达集团 | PER: ['王健林'] LOC: ['深圳'] ORG: ['万达集团'] | LOC, 深圳 PER, 王健林 ORG, 万达集团, 亿网络科技有限公司 |
而且冯绍峰爆料在拍摄《知否》的那段时间里,赵丽颖就吃很少,很瘦,也根本没有胃口吃,一整天钻在剧本中无法自拔。 | PER, 冯绍峰, 赵丽颖 | PER, 冯绍峰, 赵丽颖 | PER: ['冯绍峰', '赵丽颖'] | PER, 冯绍峰, 赵丽颖 |
中国网财经1月30日讯(记者 刘小菲)据统计,除当年9月底上市的顶固集创外,其余27只个股的收益均为负值,曲美家居则以约50%的跌幅位列倒数第4。 | PER, 刘小菲 LOC, 中国网 | PER, 刘小菲 LOC, 中国网,曲,美 | PER: [' 刘小菲'] LOC: ['中国'] | PER, 刘小菲 ORG, 中国网, 顶固集创, 曲美家居 |
易居研究院智库研究中心总监严跃进等业内专家分析,各地两会透露出“稳字当头”和强化预期管理的信号,表明各地楼市调控的稳定性和连续性将会继续下去。 | ORG, 易居研究院智库研究中心 | ORG, 易居研究院智库研究中心 | ORG: ['易居研究院智库研究中心'] | PER, 严跃进 ORG, 易居研究院智库研究中心 |
有网络消息称,滴滴将裁员25%,涉及产品技术、网约车团队等。 | [] | [] | [] | ORG, 滴滴 |
***** Running training ***** 用GPU跑的,10min跑完
Num examples = 20864
Batch size = 32
Num steps = 1956
***** Running evaluation*****
processed 214542 tokens with 7450 phrases; found: 7598 phrases; correct: 6894.
accuracy: 99.24%; precision: 90.73%; recall: 92.54%; FB1: 91.63
LOC: precision: 92.06%; recall: 93.36%; FB1: 92.70 3513
ORG: precision: 84.34%; recall: 88.04%; FB1: 86.15 2261
PER: precision: 96.11%; recall: 96.32%; FB1: 96.21 1824
会基于一个问答数据集中实体识别进行评测,完成后会更新。
------------------------------------------------------------------------------------------------------------------------------------------
20190315
问答QA(二)基于BERT的知识库问答实战 https://blog.csdn.net/ai_1046067944/article/details/86707784
------------------------------------------------------------------------------------------------------------------------------------------
后续会更新下更新下三种模型代码运行的步骤
参考文献:
【1】如何入门命名实体识别开发 : https://www.jianshu.com/p/a903c24c01b8
【2】BERT-BiLSTM-CRF-NER: GitHub - macanv/BERT-BiLSTM-CRF-NER: Tensorflow solution of NER task Using BiLSTM-CRF model with Google BERT Fine-tuning And private Server services
【3】IDCNN/BiLSTM-CRF-NER: https://github.com/crownpku/Information-Extraction-Chinese/tree/master/NER_IDCNN_CRF
【4】BiLSTM-CRF-NER: GitHub - Determined22/zh-NER-TF: A very simple BiLSTM-CRF model for Chinese Named Entity Recognition 中文命名实体识别 (TensorFlow)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。