当前位置:   article > 正文

jieba分词使用_jieba中analyse

jieba中analyse

参考教程

常用停用词表

jieba词性对照表

jieba库的主要功能

提供包括分词、词性分析、关键词提取等功能,可以自定义用户词典、设置停用词等等

分词

  1. import jieba
  2. #自定义用户词典
  3. # userdict_path = "xxxx"
  4. # jieba.load_userdict(userdict_path)
  5. word="P7"
  6. jieba.add_word(word, freq=None, tag=None)
  7. jieba.del_word(word)
  8. # 设置并行
  9. jieba.enable_parallel(4)
  10. jieba.disable_paralled()
  11. #cut:cut_all=True 全分,HMM=True
  12. #lcut:返回list
  13. test_str = "中国是一个山清水秀的好地方"
  14. jieba.cut(test_str, cut_all=True, HMM=True)
  15. jieba.lcut(test_str, cut_all=True, HMM=True)
  16. #cut_for_search,实在cut(cut_all=False)的基础上再增加一些词
  17. jieba.cut_for_search(test_str, HMM=True)
  18. jieba.lcut_for_search(test_str, HMM=True)

词性分析及关键词提取

  1. #词性分析,词性表:http://www.chenxm.cc/article/873.html
  2. import jieba.posseg as posseg
  3. #cut lcut,返回pair对,含有flag和word
  4. posseg.cut(test_str, HMM=True)
  5. posseg.lcut(test_str, HMM=True)
  6. #关键词提取
  7. import jieba.analyse as analyse
  8. #关键词提取有tf-idf和textrank两种算法
  9. #textrank考虑到词前后的关系
  10. #设置停用词表
  11. # analyse.set_stop_words()
  12. #tdf-idf,topK allowPOS
  13. analyse.extract_tags(test_str, topK=10)
  14. #textrank
  15. analyse.textrank(test_str)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/秋刀鱼在做梦/article/detail/848409
推荐阅读
相关标签
  

闽ICP备14008679号