当前位置:   article > 正文

【tf系列4】Bi-LSTM中文分词_基于tf的lstm-crf分词

基于tf的lstm-crf分词

该项目GitHub:https://github.com/rockyzhengwu/FoolNLTK

根据该项目所述,这个中文工具包的特点有如下几点:

  • 可能不是最快的开源中文分词,但很可能是最准的开源中文分词

  • 基于 BiLSTM 模型训练而成

  • 包含分词,词性标注,实体识别, 都有比较高的准确率

  • 用户自定义词典

如该项目所述,作者使用了双向 LSTM 来构建整个模型,这也许是作者对分词性能非常有信心的原因。在中文分词上,基于神经网络的方法,往往使用「字向量 + 双向 LSTM + CRF」模型,利用神经网络来学习特征,将传统 CRF 中的人工特征工程量将到最低。

安装

  
  
  1. pip install foolnltk

1、分词
  1. import fool


  2. text = "一个傻子在北京"print(fool.cut(text))

  3. # ['一个', '傻子', '在', '北京']


2、加载用户自定义词典

词典格式格式如下,词的权重越高,词的长度越长就越越可能出现, 权重值请大于 1

 
 
  1. 难受香菇 10什么鬼 10分词工具 10北京 10北京天安门 10


加载词典

import fool

fool.load_userdict(path)

text='测试'.cut()

删除词典

fool.delete_userdict()


3. 词性标注

 
 
  1. import fool

  2. text = "一个傻子在北京"print(fool.pos_cut(text))

4、实体识别

import fool

text='一个傻子在北京'

words,ners=fool.analysis(text)

print(ners)

#[](5,8,'loaction','北京')


声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/码创造者/article/detail/833430
推荐阅读
相关标签
  

闽ICP备14008679号