“结巴”中文分词:做最好的 Python 中文分词组件,分词模块jieba,它是python比较好用的分词模块, 支持中文简体,繁体分词,还支持自定义词库。
jieba的分词,提取关键词,自定义词语。
结巴分词的原理
原文链接:http://blog.csdn.net/HHTNAN/article/details/78722754
1、jieba.cut分词三种模式
- jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用
HMM 模型
jieba.cut_for_search 方法接受两个参数:需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细
待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8
jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语(unicode),或者用
jieba.lcut 以及 jieba.lcut_for_search 直接返回 list
jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器,可用于同时使用不同词典。jieba.dt 为默认分词器,所有全局分词相关函数都是该分词器的映射。
- #coding=utf-8
- import jieba,math
- import jieba.analyse
- '''
- jieba.cut主要有三种模式
- #随便对一个动物园的评论进行分析
- str_text="真是好久好久没来哈皮娜拉野生动物园了,记忆里还是小时候三四年级学校组织春游去的银河系"
- #全模式cut_all=True str_quan1=jieba.cut(str_text,cut_all=True) print('全模式分词:{ %d}' % len(list(str_quan1))) str_quan2=jieba.cut(str_text,cut_all=True) print("/".join(str_quan2)) # print(str(str_1)) #为一个generator 用for循环可以得到分词的结果 # str_1_len=len(list(str_1)) #为什么?这里执行后后面.join 就不执行,求告知 #精准模式cut_all=False,默认即是 str_jing1=jieba.cut(str_text,cut_all=False) print('精准模式分词:{ %d}' % len(list(str_jing1))) str_jing2=jieba.cut(str_text,cut_all=False) print("/".join(str_jing2)) #搜索引擎模式 cut_for_search str_soso1=jieba.cut_for_search(str_text) print('搜索引擎分词:{ %d}' % len(list(str_soso1))) str_soso2=jieba.cut_for_search(str_text) print("/".join(str_soso))
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
结果
全模式分词:{ 32}
Prefix dict has been built succesfully.
真是/TMD/好久/好久好久/好久/好久没/没来/哈/皮/娜拉/野生/野生动物/生动/动物/动物园/了///记忆/记忆里/还是/小时/小时候/时候/学校/组织/春游/游去/的/银河/银河系/河系
精准模式分词:{ 19}
真是/TMD/好久好久/没来/哈皮/娜拉/野生/动物园/了/,/记忆里/还是/小时候/学校/组织/春游/去/的/银河系
搜索引擎分词:{ 27}
真是/TMD/好久/好久/好久好久/没来/哈皮/娜拉/野生/动物/动物园/了/,/记忆/记忆里/还是/小时/时候/小时候/学校/组织/春游/去/的/银河/河系/银河系、
2关键词提取、关键词提取**
- import jieba.analyse
- ’analyse.extract.tags‘
- '''
- keywords1=jieba.analyse.extract_tags(str_text)
- print('关键词提取'+"/".join(keywords1)) keywords_top=jieba.analyse.extract_tags(str_text,topK=3) print('关键词topk'+"/".join(keywords_to#有时不确定提取多少关键词,可利用总词的百分比 print('总词数{}'.format(len(list(jieba.cut(str_text))))) total=len(list(jieba.cut(str_text))) get_cnt=math.ceil(total*0.1) #向上取整 print('从%d 中取出%d 个词'% (total,get_cnt)) keywords_top1=jieba.analyse.extract_tags(str_text,topK=get_cnt) print('关键词topk'+"/".join(keywords_top1))''
- 1
- 2
- 3
- 4
- 5
结果:
**关键词提取**TMD/哈皮/春游/好久好久/记忆里/娜拉/银河系/没来/动物园/小时候/野生/学校/真是/组织/还是
**关键词topk**TMD/哈皮/春游
总词数19
从19 中取出2 个词topkTMD/哈皮、
加自定义词与加载自定义词库**
- ================# 处理时,jieba.add_word
- # add_word(word,freq=None,tag=None) 和del_word可在程序中动态修改词典
- # suggest_freq(segment,tune=Ture)可调节单词词频,时期能或不能显示
- # 注:自动计算的词频在使用HMM
- 1
- 2
- 3
- 4