赞
踩
一、准备阶段:
(1)打开cmd,pip安装jieba(pip install jieba)
(2)打开python安装目录的Lib->site-packages->jieba,打开dict.txt,可以看到这是jieba模块的词典:
每三个为一组,分别是:词、词频、词性,关于词性的对照表见附录。
二、编写代码:
1、准备阶段:
- import jieba #导入模块
- #创建用于分词的文本
- sentence="我喜欢上海东方明珠"
2、进行文本分词:
(1)精准模式分词法,根据词频获得句子中的最大词频组合,也是默认的分词方法,下面两种代码实现结果相同:
w1=jieba.cut(sentence,cut_all=False)
w1=jieba.cut(sentence)
(2)全模式分词法,获取句子中的所有组合词:
w2=jieba.cut(sentence,cut_all=False)
(3)搜索引擎分词法,按照搜索引擎的方式进行分词:
w3=jieba.cut_for_search(sentence)
(4)输出分词结果,注意到分词法返回的结果是generator object,因此必须循环输出:
- print("精准模式:\n")
- for item in w1:
- print(item)
- print("全模式:\n")
- for item in w2:
- print(item)
- print("搜索引擎模式:\n")
- for item in w3:
- print(item)
结果:
3、获得分词结果的同时获取词语的词性:需要使用jieba.posseg.cut方法代替原有分词法。
- import jieba.posseg
- sentence="我喜欢上海东方明珠"
- w4=jieba.posseg.cut(sentence)
- #.flag词性,.word词语
- for item in w4:
- print(item.word+"-------"+item.flag)
结果:
4、自定义词典:
(1)测试,在无自定义词典的情况下:
- import jieba
- sentence="欢迎来到召唤师峡谷"
- w5=jieba.cut(sentence)
- for item in w5:
- print(item)
结果:
“召唤师峡谷”是一个专有名词,想要让其识别需要自定义词典。
(2)新建dict2.txt,在内输入:
(第2和第3参数可以省略),然后保存,注意编码必须为UTF-8。
(3)编写代码读取字典并再次分词:
- import jieba
- #读取字典
- jieba.load_userdict("E:/dict2.txt")
- sentence="欢迎来到召唤师峡谷"
- w6=jieba.cut(sentence)
- for item in w6:
- print(item)
结果:
(4)或者通过代码的方式添加词典:
- import jieba
- #添加词典词语
- jieba.add_word("召唤师峡谷")
- #同理删除词典词语:jieba.del_word("峡谷")
- sentence="欢迎来到召唤师峡谷"
- w7=jieba.cut(sentence)
- for item in w7:
- print(item)
可实现同样的效果。
5、调高词典词频(没有则添加):
-
- import jieba
- #调高词典词语的词频,没有则添加
- jieba.suggest_freq("召唤师峡谷",True)
- sentence="欢迎来到召唤师峡谷"
- w7=jieba.cut(sentence)
- for item in w7:
- print(item)
5、提取关键词:
即提取词频较高的几个词,默认提取前20个,若总词数少于20则输出全部。
- import jieba.analyse
- sentence3="我喜欢上海东方明珠哈哈东方明珠"
- tag=jieba.analyse.extract_tags(sentence3,3)
- print(tag)
结果:
6、返回词语位置:
(1)默认情况(精准分词模式)
- import jieba.analyse
- sentence3="我喜欢上海东方明珠哈哈东方明珠"
- w8=jieba.tokenize(sentence3)
- for item in w8:
- print(item)
结果:
(2)搜索引擎分词模式:
- import jieba.analyse
- sentence3="我喜欢上海东方明珠哈哈东方明珠"
- w9=jieba.tokenize(sentence3,mode="search")
- for item in w9:
- print(item)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。