赞
踩
问题来源:
本人在进行jpython的jieba分词时,发现在对不高兴,不开心等词汇进行分词时,将其分开下图
- Prefix dict has been built succesfully.
- [精确模式]: 我 不 喜欢 也 不 高兴
- [Finished in 1.7s]
期望形式:
但是我们希望jieba应该分成这种形式,不和高兴是连在一起的来表示消极的程度副词
- Prefix dict has been built succesfully.
- [精确模式]: 我 不喜欢 也 不高兴
- [Finished in 1.6s]
解决办法:
jieba有三种方法解决就是自定义字典添加新词汇
- #方法1:添加词典文件,文件需要有特定格式,并且为UTF-8编码。
- jieba.load_userdict(file_name)
-
- #文件格式如下:单词 词频 词性
-
- 创新办 3 i
- 云计算 5
- 凱特琳 nz
- 台中
-
- #方法2:动态修改词频
- jieba.add_word(word, freq=None, tag=None)
- jieba.del_word(word, freq=None, tag=None)
-
-
- #方法3:动态修改词频
- #调节单个词语的词频,使其能(不能)被分出来。
- jieba.suggest_freq(segment, tune=True)

Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。