赞
踩
首先我自定义了一个词库,内容为:
- 乾清宫 5
- 太和殿 3
- 黄琉璃瓦 3
- 午门 1
- 我是一个 5
- 凯的试接 1
我的分词内容为
- 故宫的著名景点包括乾清宫、太和殿和黄琉璃瓦等我是一个好孩子我是一个好孩子我是一个好孩子
- 故宫的著名景点包括乾清宫、太和殿和黄琉璃瓦等凯的试接
- 故宫的著名景点包括乾清宫、太和殿和黄琉璃瓦等故宫的著名景点包括乾清宫、太和殿和黄琉璃瓦等
- 故宫的著名景点包括乾清宫、太和殿和黄琉璃瓦等
分词后的效果:
- 故宫 的 著名景点 包括 乾清宫 、 太和殿 和 黄琉璃瓦 等 我 是 一个 好孩子 我 是 一个 好孩子 我 是 一个 好孩子
- 故宫 的 著名景点 包括 乾清宫 、 太和殿 和 黄琉璃瓦 等 凯的试接
- 故宫 的 著名景点 包括 乾清宫 、 太和殿 和 黄琉璃瓦 等 故宫 的 著名景点 包括 乾清宫 、 太和殿 和 黄琉璃瓦 等
- 故宫 的 著名景点 包括 乾清宫 、 太和殿 和 黄琉璃瓦 等
对于 我是一个5 这个不想被分开的词,分词后还是被分开了,后来看了jieba自己的分词词典dict.txt,发现在词典中有三个词:我 ,是 ,一个 。所以自己定义的 我是一个 这个词就没有效果了。
添加的 凯的试接 因为dict.txt中没有这个词,就正常执行了。
如果还想按照自己自定义的词典分词,需要把dict.txt中相应的词删掉。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。