当前位置:   article > 正文

python jieba分词(结巴分词)、提取词,加载词,修改词频,定义词库 -转载

del_word加载词和词性
转载请注明出处 

“结巴”中文分词:做最好的 Python 中文分词组件,分词模块jieba,它是python比较好用的分词模块, 支持中文简体,繁体分词,还支持自定义词库。 
jieba的分词,提取关键词,自定义词语。 
结巴分词的原理 
原文链接:http://blog.csdn.net/HHTNAN/article/details/78722754

1、jieba.cut分词三种模式

  • jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 
    HMM 模型 
    jieba.cut_for_search 方法接受两个参数:需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细 
    待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8 
    jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语(unicode),或者用 
    jieba.lcut 以及 jieba.lcut_for_search 直接返回 list 
    jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器,可用于同时使用不同词典。jieba.dt 为默认分词器,所有全局分词相关函数都是该分词器的映射。
  1. #coding=utf-8
  2. import jieba,math
  3. import jieba.analyse
  4. '''
  5. jieba.cut主要有三种模式
  6. #随便对一个动物园的评论进行分析
  7. str_text="真是好久好久没来哈皮娜拉野生动物园了,记忆里还是小时候三四年级学校组织春游去的银河系"
  8. #全模式cut_all=True str_quan1=jieba.cut(str_text,cut_all=True) print('全模式分词:{ %d}' % len(list(str_quan1))) str_quan2=jieba.cut(str_text,cut_all=True) print("/".join(str_quan2)) # print(str(str_1)) #为一个generator 用for循环可以得到分词的结果 # str_1_len=len(list(str_1)) #为什么?这里执行后后面.join 就不执行,求告知 #精准模式cut_all=False,默认即是 str_jing1=jieba.cut(str_text,cut_all=False) print('精准模式分词:{ %d}' % len(list(str_jing1))) str_jing2=jieba.cut(str_text,cut_all=False) print("/".join(str_jing2)) #搜索引擎模式 cut_for_search str_soso1=jieba.cut_for_search(str_text) print('搜索引擎分词:{ %d}' % len(list(str_soso1))) str_soso2=jieba.cut_for_search(str_text) print("/".join(str_soso))
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

结果 
全模式分词:{ 32} 
Prefix dict has been built succesfully. 
真是/TMD/好久/好久好久/好久/好久没/没来/哈/皮/娜拉/野生/野生动物/生动/动物/动物园/了///记忆/记忆里/还是/小时/小时候/时候/学校/组织/春游/游去/的/银河/银河系/河系 
精准模式分词:{ 19} 
真是/TMD/好久好久/没来/哈皮/娜拉/野生/动物园/了/,/记忆里/还是/小时候/学校/组织/春游/去/的/银河系 
搜索引擎分词:{ 27} 
真是/TMD/好久/好久/好久好久/没来/哈皮/娜拉/野生/动物/动物园/了/,/记忆/记忆里/还是/小时/时候/小时候/学校/组织/春游/去/的/银河/河系/银河系、

2关键词提取、关键词提取**

  1. import jieba.analyse
  2. ’analyse.extract.tags‘
  3. '''
  4. keywords1=jieba.analyse.extract_tags(str_text)
  5. print('关键词提取'+"/".join(keywords1)) keywords_top=jieba.analyse.extract_tags(str_text,topK=3) print('关键词topk'+"/".join(keywords_to#有时不确定提取多少关键词,可利用总词的百分比 print('总词数{}'.format(len(list(jieba.cut(str_text))))) total=len(list(jieba.cut(str_text))) get_cnt=math.ceil(total*0.1) #向上取整 print('从%d 中取出%d 个词'% (total,get_cnt)) keywords_top1=jieba.analyse.extract_tags(str_text,topK=get_cnt) print('关键词topk'+"/".join(keywords_top1))''
  • 1
  • 2
  • 3
  • 4
  • 5

 

结果: 
**关键词提取**TMD/哈皮/春游/好久好久/记忆里/娜拉/银河系/没来/动物园/小时候/野生/学校/真是/组织/还是 
**关键词topk**TMD/哈皮/春游 
总词数19 
从19 中取出2 个词topkTMD/哈皮、

加自定义词与加载自定义词库**

  1. ================# 处理时,jieba.add_word
  2. # add_word(word,freq=None,tag=None) 和del_word可在程序中动态修改词典
  3. # suggest_freq(segment,tune=Ture)可调节单词词频,时期能或不能显示
  4. # 注:自动计算的词频在使用HMM
  • 1
  • 2
  • 3
  • 4
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/281617
推荐阅读
相关标签
  

闽ICP备14008679号