赞
踩
提供包括分词、词性分析、关键词提取等功能,可以自定义用户词典、设置停用词等等
- import jieba
- #自定义用户词典
- # userdict_path = "xxxx"
- # jieba.load_userdict(userdict_path)
- word="P7"
- jieba.add_word(word, freq=None, tag=None)
- jieba.del_word(word)
- # 设置并行
- jieba.enable_parallel(4)
- jieba.disable_paralled()
-
- #cut:cut_all=True 全分,HMM=True
- #lcut:返回list
- test_str = "中国是一个山清水秀的好地方"
- jieba.cut(test_str, cut_all=True, HMM=True)
- jieba.lcut(test_str, cut_all=True, HMM=True)
-
- #cut_for_search,实在cut(cut_all=False)的基础上再增加一些词
- jieba.cut_for_search(test_str, HMM=True)
- jieba.lcut_for_search(test_str, HMM=True)
- #词性分析,词性表:http://www.chenxm.cc/article/873.html
- import jieba.posseg as posseg
- #cut lcut,返回pair对,含有flag和word
- posseg.cut(test_str, HMM=True)
- posseg.lcut(test_str, HMM=True)
-
-
-
- #关键词提取
- import jieba.analyse as analyse
- #关键词提取有tf-idf和textrank两种算法
- #textrank考虑到词前后的关系
- #设置停用词表
- # analyse.set_stop_words()
- #tdf-idf,topK allowPOS
- analyse.extract_tags(test_str, topK=10)
-
- #textrank
- analyse.textrank(test_str)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。