赞
踩
该项目GitHub:https://github.com/rockyzhengwu/FoolNLTK
根据该项目所述,这个中文工具包的特点有如下几点:
可能不是最快的开源中文分词,但很可能是最准的开源中文分词
基于 BiLSTM 模型训练而成
包含分词,词性标注,实体识别, 都有比较高的准确率
用户自定义词典
安装
1、分词
pip install foolnltk
import fool
text = "一个傻子在北京"print(fool.cut(text))
# ['一个', '傻子', '在', '北京']
2、加载用户自定义词典
词典格式格式如下,词的权重越高,词的长度越长就越越可能出现, 权重值请大于 1
难受香菇 10什么鬼 10分词工具 10北京 10北京天安门 10
加载词典
import fool
fool.load_userdict(path)
text='测试'.cut()
删除词典
fool.delete_userdict()
3. 词性标注
import fool
text = "一个傻子在北京"print(fool.pos_cut(text))
4、实体识别
import fool
text='一个傻子在北京'
words,ners=fool.analysis(text)
print(ners)
#[](5,8,'loaction','北京')
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。