赞
踩
导入自定义词库,特殊字符不分割,识别词性。
将词典存入userdict.txt文件中。词与词性用空格分割。
jieba.load_userdict("userdict.txt")
修改jieba/init.py。因为要修改jieba原始文件,所以不使用全局安装jieba,从github上下载后,将jieba目录复制到项目根目录,
re_han_default = re.compile("([\u4E00-\u9FD5a-zA-Z0-9+#&\._%\-]+)", re.U)
修改为
re_han_default = re.compile("(.+)", re.U)
修改jieba/posseg/init.py。
re_han_internal = re.compile("([\u4E00-\u9FD5a-zA-Z0-9+#&\._]+)")
修改为
re_han_internal = re.compile("(.+)")
import jieba
import jieba.posseg as pseg
jieba.load_userdict("userdict.txt")
prompt = (
"β-阿朴-8’-胡萝卜素醛能否用于调制肉制品"
)
# seg_list = jieba.cut(prompt, cut_all=False, HMM=True)
# print(", ".join(seg_list))
seg_list = pseg.cut(prompt,use_paddle=True)
for word, flag in seg_list:
print('%s %s' % (word, flag))
β-阿朴-8’-胡萝卜素醛 tjj
能否 v
用于 v
预制肉制品 food
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。