当前位置:   article > 正文

jieba导入自定义词库,特殊字符不分割,识别词性_jieba 用户自定义词典csdn 词性

jieba 用户自定义词典csdn 词性

导入自定义词库,特殊字符不分割,识别词性。

导入词库

词典存入userdict.txt文件中。词与词性用空格分割。

jieba.load_userdict("userdict.txt")
  • 1

在这里插入图片描述

词库特殊字符不分割

修改jieba/init.py。因为要修改jieba原始文件,所以不使用全局安装jieba,从github上下载后,将jieba目录复制到项目根目录,

re_han_default = re.compile("([\u4E00-\u9FD5a-zA-Z0-9+#&\._%\-]+)", re.U)
  • 1

修改为

re_han_default = re.compile("(.+)", re.U)
  • 1

输出词性时,词库特殊字符不分割

修改jieba/posseg/init.py。

re_han_internal = re.compile("([\u4E00-\u9FD5a-zA-Z0-9+#&\._]+)")
  • 1

修改为

re_han_internal = re.compile("(.+)")
  • 1
import jieba
import jieba.posseg as pseg

jieba.load_userdict("userdict.txt")
prompt = (
        "β-阿朴-8’-胡萝卜素醛能否用于调制肉制品"
)
# seg_list = jieba.cut(prompt, cut_all=False, HMM=True)
# print(", ".join(seg_list))
seg_list = pseg.cut(prompt,use_paddle=True)
for word, flag in seg_list:
    print('%s %s' % (word, flag))
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
β-阿朴-8’-胡萝卜素醛 tjj
能否 v
用于 v
预制肉制品 food
  • 1
  • 2
  • 3
  • 4
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/很楠不爱3/article/detail/243288?site
推荐阅读
相关标签
  

闽ICP备14008679号