当前位置:   article > 正文

Python数据挖掘学习笔记(1)文本挖掘入门_语音质检python文本挖掘

语音质检python文本挖掘

一、准备阶段:

(1)打开cmd,pip安装jieba(pip install jieba)

(2)打开python安装目录的Lib->site-packages->jieba,打开dict.txt,可以看到这是jieba模块的词典:

    

    每三个为一组,分别是:词、词频、词性,关于词性的对照表见附录。

二、编写代码:

1、准备阶段:

  1. import jieba #导入模块
  2. #创建用于分词的文本
  3. sentence="我喜欢上海东方明珠"

2、进行文本分词:

(1)精准模式分词法,根据词频获得句子中的最大词频组合,也是默认的分词方法,下面两种代码实现结果相同:

w1=jieba.cut(sentence,cut_all=False)
w1=jieba.cut(sentence)

(2)全模式分词法,获取句子中的所有组合词:

w2=jieba.cut(sentence,cut_all=False)

(3)搜索引擎分词法,按照搜索引擎的方式进行分词:

w3=jieba.cut_for_search(sentence)

(4)输出分词结果,注意到分词法返回的结果是generator object,因此必须循环输出:

  1. print("精准模式:\n")
  2. for item in w1:
  3. print(item)
  4. print("全模式:\n")
  5. for item in w2:
  6. print(item)
  7. print("搜索引擎模式:\n")
  8. for item in w3:
  9. print(item)

    结果:

3、获得分词结果的同时获取词语的词性:需要使用jieba.posseg.cut方法代替原有分词法。

  1. import jieba.posseg
  2. sentence="我喜欢上海东方明珠"
  3. w4=jieba.posseg.cut(sentence)
  4. #.flag词性,.word词语
  5. for item in w4:
  6. print(item.word+"-------"+item.flag)

结果:

4、自定义词典:

(1)测试,在无自定义词典的情况下:

  1. import jieba
  2. sentence="欢迎来到召唤师峡谷"
  3. w5=jieba.cut(sentence)
  4. for item in w5:
  5. print(item)

结果:

“召唤师峡谷”是一个专有名词,想要让其识别需要自定义词典。

(2)新建dict2.txt,在内输入:

(第2和第3参数可以省略),然后保存,注意编码必须为UTF-8。

(3)编写代码读取字典并再次分词:

  1. import jieba
  2. #读取字典
  3. jieba.load_userdict("E:/dict2.txt")
  4. sentence="欢迎来到召唤师峡谷"
  5. w6=jieba.cut(sentence)
  6. for item in w6:
  7. print(item)

结果:

(4)或者通过代码的方式添加词典:

  1. import jieba
  2. #添加词典词语
  3. jieba.add_word("召唤师峡谷")
  4. #同理删除词典词语:jieba.del_word("峡谷")
  5. sentence="欢迎来到召唤师峡谷"
  6. w7=jieba.cut(sentence)
  7. for item in w7:
  8. print(item)

可实现同样的效果。

5、调高词典词频(没有则添加):

  1. import jieba
  2. #调高词典词语的词频,没有则添加
  3. jieba.suggest_freq("召唤师峡谷",True)
  4. sentence="欢迎来到召唤师峡谷"
  5. w7=jieba.cut(sentence)
  6. for item in w7:
  7. print(item)

5、提取关键词:

     即提取词频较高的几个词,默认提取前20个,若总词数少于20则输出全部。

  1. import jieba.analyse
  2. sentence3="我喜欢上海东方明珠哈哈东方明珠"
  3. tag=jieba.analyse.extract_tags(sentence3,3)
  4. print(tag)

结果:

6、返回词语位置:

(1)默认情况(精准分词模式)

  1. import jieba.analyse
  2. sentence3="我喜欢上海东方明珠哈哈东方明珠"
  3. w8=jieba.tokenize(sentence3)
  4. for item in w8:
  5. print(item)

结果:

(2)搜索引擎分词模式:

  1. import jieba.analyse
  2. sentence3="我喜欢上海东方明珠哈哈东方明珠"
  3. w9=jieba.tokenize(sentence3,mode="search")
  4. for item in w9:
  5. print(item)

附录:词性对照表

词性

表示符号

形容词a 形容词
 ad 副形词
 an 名形词
 ag 形容词性语素
 al 形容词性惯用语
区别词b 区别词
 bl 区别词性惯用语
连词c 连词
 cc 并列连词
副词d 副词
叹词e 叹词
方位词f 方位词
前缀h 前缀
后缀k 后缀
数词m 数词
 mq 数量词
名词n 名词
 nr 人名
 nr1 汉语姓氏
 nr2 汉语名字
 nrj 日语人名
 nrf 音译人名
 ns 地名
 nsf 音译地名
 nt 机构团体名
 nz 其它专名
 nl 名词性惯用语
 ng 名词性语素
拟声词o 拟声词
介词p 介词
 pba 介词“把”
 pbei 介词“被”
量词q 量词
 qv 动量词
 qt 时量词
代词r 代词
 rr 人称代词
 rz 指示代词
 rzt 时间指示代词
 rzs 处所指示代词
 rzv 谓词性指示代词
 ry 疑问代词
 ryt 时间疑问代词
 rys 处所疑问代词
 ryv 谓词性疑问代词
 rg 代词性语素
处所词s 处所词
时间词t 时间词 tg 时间词性语素
助词u 助词
 uzhe 着
 ule 了 喽
 uguo 过
 ude1 的 底
 ude2 地
 ude3 得
 usuo 所
 udeng 等 等等 云云
 uyy 一样 一般 似的 般
 udh 的话
 uls 来讲 来说 而言 说来
 uzhi 之
 ulian 连 (“连小学生都会”)
动词v 动词
 vd 副动词
 vn 名动词
 vshi 动词“是”
 vyou 动词“有”
 vf 趋向动词
 vx 形式动词
 vi 不及物动词(内动词)
 vl 动词性惯用语
 vg 动词性语素
标点符号w 标点符号
 wkz 左括号,全角:( 〔 [ { 《 【 〖 〈 半角:( [ { < wky 右括号,全角:) 〕 ] } 》 】 〗 〉 半角: ) ] { >
 wyz 左引号,全角:“ ‘ 『
 wyy 右引号,全角:” ’ 』
 wj 句号,全角:。
 ww 问号,全角:? 半角:? wt 叹号,全角:! 半角:!
 wd 逗号,全角:, 半角:,
 wf 分号,全角:; 半角: ;
 wn 顿号,全角:、wm 冒号,全角:: 半角: :
 ws 省略号,全角:…… …
 wp 破折号,全角:—— -- ——- 半角:— —-
 wb 百分号千分号,全角:% ‰ 半角:%
 wh 单位符号,全角:¥ $ £ ° ℃ 半角:$
字符串x 字符串 xx 非语素字 xu 网址URL
语气词y 语气词(delete yg)
状态词z 状态词
声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号