赞
踩
一、 jieba库简介与安装
简介:jieba库是一个进行中文分词的第三方库。可用来进行关键字搜索。
安装:在python3环境下输入:pip install jieba进行安装。
二、jieba库有三种分词模式
精确模式:试图将句子最精确地切开,适合文本分析(默认是精确模式);
全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,有冗余,不能解决歧义;
搜索引擎模式:在精确模式的基础上,对长词再次切分,适合用于搜索引擎分词。
import jieba
#精确模式(cut_all参数值为False表示精确模式)
seg_list = jieba.cut("最美的不是下雨天,是曾与你躲过雨的屋檐。",cut_all=False)
print( "精确模式:","/ ".join(seg_list))
#全模式(cut_all参数值为True表示全模式)
seg_list = jieba.cut("最美的不是下雨天,是曾与你躲过雨的屋檐。",cut_all=True)
print( "全模式:","/ ".join(seg_list))
#搜索引擎模式(粒度比较细)
seg_list = jieba.cut_for_search("最美的不是下雨天,是曾与你躲过雨的屋檐")
print("搜索引擎模式:","/ ".join(seg_list))
输出结果:
精确模式: 最美/ 的/ 不是/ 下雨天/ ,/ 是/ 曾/ 与/ 你/ 躲过/ 雨/ 的/ 屋檐/ 。
全模式: 最美/ 美的/ 不是/ 下雨/ 下雨天/ 雨天/ / / 是/ 曾/ 与/ 你/ 躲过/ 雨/ 的/ 屋檐/ /
搜索引擎模式: 最美/ 的/ 不是/ 下雨/ 雨天/ 下雨天/ ,/ 是/ 曾/ 与/ 你/ 躲过/ 雨/ 的/ 屋檐
三、jieba库其他一些应用
#1.导入自定义的字典
jieba.load_userdict("L1.txt")
#2.给字典添加词语(暂时的,不会永久改变词库)
jieba.add_word("你好啊")
#3.删除词库中的词语
jieba.del_word("不好")
#4.载入停用表
analyse.set_stop_words("stop_text.txt")
#5.添加词性标注
import jieba.posseg as pseg
words =pseg.cut("我毕业于上海交通大学")
for w in words:
print(w.word,w.flag)
输出结果:
我 r
毕业 n
于 p
上海交通大学 nt
#6.关键词提取
#jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
#第一个参数:待提取的关键词文本;第二个参数:返回关键词的数量,重要性从高到低排序;第三个参数:是否同时返回每个关键词的权重;四个参数:词性过滤,为空表示不过滤。
#导入统计分析必要的包
from jieba import analyse
#载入停用词表
analyse.set_stop_words("stop_text.txt")
with open("text.txt", "r",encoding="utf-8") as f:
text = f.read()
findWord = analyse.extract_tags(text, topK=5, withWeight=True) #topK定义权重前5,默认值为20
for wd, weight in findWord: #wd, weight分别为关键词,权重
print(int(weight*10),wd) #int(weight*10)使生成的数为整数,根据词总数可作调整```
输出结果:
1 努力
1 奋斗
0 一路
0 辜负
0 坚强
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。