当前位置:   article > 正文

【Bert】(十四)命名实体识别--中文数据介绍及标注_bert 标注

bert 标注

代码:https://github.com/macanv/BERT-BiLSTM-CRF-NER

1. 下载数据

The Chinese training data($PATH/NERdata/) come from:https://github.com/zjy-ucas/ChineseNER

链接:https://pan.baidu.com/s/1JBnda5rgUsZjgYR5W7u-Fg 
提取码:x16l 

2. 数据介绍

2.1 标注方式

【NLP】序列标注BIO介绍(也叫IOB2)_mjiansun的专栏-CSDN博客

2.2 类别个数

总共四类:persons, locations, organizations 

对应的简写:PER    LOC   ORG

3.3 导入数据

3.3.1 将中文数据的数据转成上述格式

  1. import os
  2. if __name__ == "__main__":
  3. rootPath = "/data2/PrivateExperiment/bilstm-crf-ner/NERdata/train.txt"
  4. savePath = "/data2/PrivateExperiment/bilstm-crf-ner/NERdata/process/toformat.txt"
  5. collectData = []
  6. with open(rootPath, "r") as f:
  7. for line in f.readlines():
  8. lineStrs = line.strip().split()
  9. if len(lineStrs) > 0:
  10. collectData.append([lineStrs[0], lineStrs[1] + "\n"])
  11. else:
  12. collectData.append(["\n"])
  13. with open(savePath, "w", encoding="utf-8") as f:
  14. for line in collectData:
  15. f.write("\t".join(line))

生成结果为

3.3.2 将输入拖拽导入

 

 

3.4导出数据

 

admin.jsonl为正常的数据,unknown.jsonl为不正常数据。

admin.jsonl

unknown.jsonl

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/648443
推荐阅读
相关标签
  

闽ICP备14008679号