当前位置:   article > 正文

jieba分词(添加分词词典)_请分别用两种方法,将没有分出的词作为新词添加到jieba词库中

请分别用两种方法,将没有分出的词作为新词添加到jieba词库中

为了分词效果更好,可以自己建立分词词典加入到jieba词典中:

jieba.load_userdict()

()内为分词词典路径+名称。

写一个分词的小函数:

  1. import jieba
  2. def preprocess(path):
  3. text = ""
  4. fenci = open(path, "r", encoding="utf-8").read()
  5. jieba.load_userdict("C:/Users/idmin/Desktop/dict.txt")
  6. fenci = jieba.cut(fenci)
  7. #fenci = "/".join(fenci)
  8. for word in fenci:
  9. text=text+word
  10. return text
  11. print(preprocess('C:/Users/idmin/Desktop/one.txt'))
  12. '''
  13. #或以下程序
  14. import jieba
  15. def preprocess(path):
  16. text = ""
  17. fenci = open(path, "r", encoding="utf-8").read()
  18. jieba.load_userdict("C:/Users/idmin/Desktop/dict.txt")
  19. fenci = jieba.cut(fenci)
  20. fenci = "/".join(fenci)
  21. #for word in fenci:
  22. # text=text+word
  23. return fenci
  24. print(preprocess('C:/Users/idmin/Desktop/one.txt'))
  25. '''

one.txt内容为:

分词词典dict.txt内容为:

分词词典的格式要为“utf-8”.(另存为即可。)

加入分词词典前,分词效果如下:

/你好/您好/python/中/jieba/分词/快速/入门/落叶/数据挖掘/新浪/博客

加入后,效果为:

/你好/您好/python/中/jieba/分词/快速入门/落叶/数据挖掘/新浪/博客

“快速入门”没有被分开哦。

 

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop】
推荐阅读
  

闽ICP备14008679号