python jieba分词(结巴分词)、提取词，加载词，修改词频，定义词库 -转载

作者：花生_TL007 | 2024-03-21 14:41:51

踩

del_word加载词和词性

转载请注明出处

“结巴”中文分词：做最好的 Python 中文分词组件,分词模块jieba，它是python比较好用的分词模块, 支持中文简体，繁体分词，还支持自定义词库。
jieba的分词，提取关键词，自定义词语。
结巴分词的原理
原文链接：http://blog.csdn.net/HHTNAN/article/details/78722754

1、jieba.cut分词三种模式

jieba.cut 方法接受三个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用
HMM 模型
jieba.cut_for_search 方法接受两个参数：需要分词的字符串；是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细
待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意：不建议直接输入 GBK 字符串，可能无法预料地错误解码成 UTF-8
jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator，可以使用 for 循环来获得分词后得到的每一个词语(unicode)，或者用
jieba.lcut 以及 jieba.lcut_for_search 直接返回 list
jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器，可用于同时使用不同词典。jieba.dt 为默认分词器，所有全局分词相关函数都是该分词器的映射。


#coding=utf-8
import jieba,math
import jieba.analyse
'''
jieba.cut主要有三种模式
#随便对一个动物园的评论进行分析
str_text="真是好久好久没来哈皮娜拉野生动物园了，记忆里还是小时候三四年级学校组织春游去的银河系"
#全模式cut_all=True str_quan1=jieba.cut(str_text,cut_all=True) print('全模式分词：{ %d}' % len(list(str_quan1))) str_quan2=jieba.cut(str_text,cut_all=True) print("/".join(str_quan2)) # print(str(str_1)) #为一个generator 用for循环可以得到分词的结果 # str_1_len=len(list(str_1)) #为什么？这里执行后后面.join 就不执行，求告知 #精准模式cut_all=False，默认即是 str_jing1=jieba.cut(str_text,cut_all=False) print('精准模式分词：{ %d}' % len(list(str_jing1))) str_jing2=jieba.cut(str_text,cut_all=False) print("/".join(str_jing2)) #搜索引擎模式 cut_for_search str_soso1=jieba.cut_for_search(str_text) print('搜索引擎分词：{ %d}' % len(list(str_soso1))) str_soso2=jieba.cut_for_search(str_text) print("/".join(str_soso))1
2
3
4
5
6
7
8

结果
全模式分词：{ 32}
Prefix dict has been built succesfully.
真是/TMD/好久/好久好久/好久/好久没/没来/哈/皮/娜拉/野生/野生动物/生动/动物/动物园/了///记忆/记忆里/还是/小时/小时候/时候/学校/组织/春游/游去/的/银河/银河系/河系
精准模式分词：{ 19}
真是/TMD/好久好久/没来/哈皮/娜拉/野生/动物园/了/，/记忆里/还是/小时候/学校/组织/春游/去/的/银河系
搜索引擎分词：{ 27}
真是/TMD/好久/好久/好久好久/没来/哈皮/娜拉/野生/动物/动物园/了/，/记忆/记忆里/还是/小时/时候/小时候/学校/组织/春游/去/的/银河/河系/银河系、

2关键词提取、关键词提取**


import jieba.analyse
’analyse.extract.tags‘
'''
keywords1=jieba.analyse.extract_tags(str_text)
print('关键词提取'+"/".join(keywords1)) keywords_top=jieba.analyse.extract_tags(str_text,topK=3) print('关键词topk'+"/".join(keywords_to#有时不确定提取多少关键词，可利用总词的百分比 print('总词数{}'.format(len(list(jieba.cut(str_text))))) total=len(list(jieba.cut(str_text))) get_cnt=math.ceil(total*0.1) #向上取整 print('从%d 中取出%d 个词'% (total,get_cnt)) keywords_top1=jieba.analyse.extract_tags(str_text,topK=get_cnt) print('关键词topk'+"/".join(keywords_top1))''1
2
3
4
5

结果：
**关键词提取**TMD/哈皮/春游/好久好久/记忆里/娜拉/银河系/没来/动物园/小时候/野生/学校/真是/组织/还是
**关键词topk**TMD/哈皮/春游
总词数19
从19 中取出2 个词topkTMD/哈皮、

加自定义词与加载自定义词库**


================# 处理时，jieba.add_word
# add_word(word,freq=None,tag=None)  和del_word可在程序中动态修改词典
# suggest_freq(segment,tune=Ture)可调节单词词频，时期能或不能显示
# 注：自动计算的词频在使用HMM1
2
3
4

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/花生_TL007/article/detail/281617