当前位置:   article > 正文

【NLP】中文NLP常见任务及工具_在nlp中常用的技术和工具包括以下哪些?() a.分词 b.句法分析 c.图像

在nlp中常用的技术和工具包括以下哪些?() a.分词 b.句法分析 c.图像

工欲善其事,必先利其器,再好的方法不如现成的工具

中文分词

  • ‌jieba:多种分词模式,老牌健将
  • ‌LAC:百度出品,感觉最好用【推荐】
  • Spacy:全能选手,分词差了点

依存句法分析

  • ‌Spacy:画图很棒

实体识别

  • ‌LAC+自定义词典:配合自定义词典准确率很高
  • Bert+CRF:能解决前者不能识别新词的问题,接近SOTA的性能。

关系抽取

  • ‌DeepKE:工具,浙大开发,涵盖多种深度学习模型,如BERT,CNN,Transformer等,目前还支持LLM了
  • PURE:算法,pipleline方向的经典算法;
  • TPlinker:算法,Joint式的,目前基本上是Joint的天下

标注工具

  • ‌YEDDA:若只实体抽取,则很不错
  • ‌MarkTOOL:关系抽取首选,国产之光,免费好用。

标点符号恢复

  • auto_punc:百度出品

文本纠错

文本纠错是一个很基础又比较难的任务。

  • pycorrector:持续更新的一个工具,有很多算法模型可以选择,目前github 4.5K star,属于中文纠错领域最热门的一个工具
import pycorrector

corrected_sent, detail = pycorrector.correct('客户反映发动机故障等亮')
print(corrected_sent, detail)
  • 1
  • 2
  • 3
  • 4

输出:
客户反映发动机故障灯亮 [(‘等亮’, ‘灯亮’, 9, 11)]

  • xmnlp:是中文领域内的一个比较综合的工具,包含了分词,文本纠错等功能。
    请添加图片描述
import xmnlp
import datetime
xmnlp.set_model(r'F:\pretrained_model\xmnlp-onnx-models')

'''
python 3.7版本,程序执行的结果可能有问题,
python3.8版本,程序执行结果正常
注意文件名不要设置成xmnlp.py会报错!
'''

# demo演示集合

text = "xmnlp 是一款开箱即用的轻量级中文自然语言处理工具
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/566271
推荐阅读
相关标签