当前位置:   article > 正文

jieba分词自定义词库无效果_jieba自定义词典不生效

jieba自定义词典不生效

首先我自定义了一个词库,内容为:

  1. 乾清宫 5
  2. 太和殿 3
  3. 黄琉璃瓦 3
  4. 午门 1
  5. 我是一个 5
  6. 凯的试接 1

我的分词内容为

  1. 故宫的著名景点包括乾清宫、太和殿和黄琉璃瓦等我是一个好孩子我是一个好孩子我是一个好孩子
  2. 故宫的著名景点包括乾清宫、太和殿和黄琉璃瓦等凯的试接
  3. 故宫的著名景点包括乾清宫、太和殿和黄琉璃瓦等故宫的著名景点包括乾清宫、太和殿和黄琉璃瓦等
  4. 故宫的著名景点包括乾清宫、太和殿和黄琉璃瓦等

分词后的效果:

  1. 故宫 的 著名景点 包括 乾清宫 、 太和殿 和 黄琉璃瓦 等 我 是 一个 好孩子 我 是 一个 好孩子 我 是 一个 好孩子
  2. 故宫 的 著名景点 包括 乾清宫 、 太和殿 和 黄琉璃瓦 等 凯的试接
  3. 故宫 的 著名景点 包括 乾清宫 、 太和殿 和 黄琉璃瓦 等 故宫 的 著名景点 包括 乾清宫 、 太和殿 和 黄琉璃瓦 等
  4. 故宫 的 著名景点 包括 乾清宫 、 太和殿 和 黄琉璃瓦 等

对于  我是一个5  这个不想被分开的词,分词后还是被分开了,后来看了jieba自己的分词词典dict.txt,发现在词典中有三个词:我  ,是  ,一个 。所以自己定义的  我是一个  这个词就没有效果了。

添加的  凯的试接  因为dict.txt中没有这个词,就正常执行了。

如果还想按照自己自定义的词典分词,需要把dict.txt中相应的词删掉。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小蓝xlanll/article/detail/243341
推荐阅读
  

闽ICP备14008679号