当前位置:   article > 正文

如何让jieba分词不分开某些词(suggest_freq方法的使用)_jieba.suggest_freq

jieba.suggest_freq

问题来源:

本人在进行jpython的jieba分词时,发现在对不高兴,不开心等词汇进行分词时,将其分开下图

  1. Prefix dict has been built succesfully.
  2. [精确模式]: 我 不 喜欢 也 不 高兴
  3. [Finished in 1.7s]

 

期望形式:

但是我们希望jieba应该分成这种形式,不和高兴是连在一起的来表示消极的程度副词

  1. Prefix dict has been built succesfully.
  2. [精确模式]: 我 不喜欢 也 不高兴
  3. [Finished in 1.6s]

 

解决办法: 

jieba有三种方法解决就是自定义字典添加新词汇

  1. #方法1:添加词典文件,文件需要有特定格式,并且为UTF-8编码。
  2. jieba.load_userdict(file_name)
  3. #文件格式如下:单词 词频 词性
  4. 创新办 3 i
  5. 云计算 5
  6. 凱特琳 nz
  7. 台中
  8. #方法2:动态修改词频
  9. jieba.add_word(word, freq=None, tag=None)
  10. jieba.del_word(word, freq=None, tag=None)
  11. #方法3:动态修改词频
  12. #调节单个词语的词频,使其能(不能)被分出来。
  13. jieba.suggest_freq(segment, tune=True)

 

本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号