当前位置:   article > 正文

jieba用自定义词典分词不准确

jieba分词添加自定义词典导致错误分词

最近在用jieba库分词,自己做了一个语料库,但是用 jieba.load_userdict("all_yuliaoku1.txt")加载自己的语料库出现了分词不准确的问题,某些词语一直分不出来。

后来根据

 

个人猜测是和这个jieba.cache有关,之前看过资料,jieba分词是根据dict.txt建立模型,然后加载模型,进行分词。个人猜测是和这个cache文件有关,

于是删除路径的的cache文件,把自己的词典放在原来jieba的库的dict.txt的位置,然后删除原来的dict.txt。运行文件,然后分词就准确了。

有些专业词,之前是分不出来的,现在是可以分出来的。困扰了好久的问题,终于解决了。

 

转载于:https://www.cnblogs.com/tianqianlan/p/11239954.html

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/243350
推荐阅读
  

闽ICP备14008679号