当前位置:   article > 正文

python机器学习8--自然语言处理(1)

python机器学习8--自然语言处理(1)

1.基本定义:

语义:就是一句话的重点是什么。

自定词汇:因为语言、文字太多,自定和处理你所关心的重点词汇。

简体转繁体代码

  1. from opencc import OpenCC
  2. text1 = "我去过清华大学"
  3. openCC = OpenCC('s2t')
  4. line = openCC.convert(text1)
  5. print(" "+text1) # 打印原文本
  6. print("s2t;"+line) # 打印转换后的文本

结果如下:

 2.中文分词断词工具

        在中文分词的处理方面,Python有几个第三方的程序pymmseg、smallseg和jieba,本节将介绍的是jieba。这个需要先安装。

pip install jieba

        原理: jieba中文分词所使用的算法是通过Trie Tree(又称前缀树或字典树)结构去创建句子,根据文字所有可能成词的情况,通过动态规划算法找出最大概率的路径,这个路径就是基于词频的最大断词结果。对于字典词库中不存在的词,则使用HMM(Hidden Markov Model,隐马尔可夫模型)及Viterbi算法来辨识出来。

一个小demo

  1. import jieba
  2. text1="我去过清华大学"
  3. test2="小明来到了行研大厦"
  4. seg_list=jieba.cut(text1,cut_all=True,HMM=False)
  5. print("Full Mode:"+"/".join(seg_list))
  6. seg_list=jieba.cut(text1,cut_all=False,HMM=True)
  7. print("Default Mode:"+"/".join(seg_list))
  8. print(",".join(jieba.cut(test2,HMM=True)))
  9. print(",".join(jieba.cut(test2,HMM=False)))
  10. print(",".join(jieba.cut(test2)))
  11. print(",".join(jieba.cut_for_search(test2)))

运行结果

上面的几种模式:

        Full Mode(全模式):试图将句子最精确地切开,适合文本分析,输出的是所有可能的分词组合,比如清华大学,会被分成:清华、清华大学、华大、大学。

        Default Mode(精确模型):把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义,比如清华大学,只会输出清华大学。

        jieba.cut_for_search(搜索引擎模式):在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

注意有些词分割不正确,可以自己进行设置jieba.load_userdict("userdict.txt")这样再次通过jieba.cut(text)切割后就会达到自己的预期了。取得词性jieba.posseg.cut(text)

3.使用TF-IDF算法的关键词计算

 jieba.analyse.extract_tags(content, topK = 20, withWeight = True, allowPOS=( ))

参数如下:

· content:待处理的文字。

· topK:返回关键词的数量,重要性权重TF-IDF从高到低排序,如topK=20,就是回传20个最重要的分词。

· withWeight:设置为True或False,即是否返回每个关键词的权重TF-IDF。

· allowPOS:词性过滤,为空表示不过滤。词性,如同jieba.posseg.cut所输出的内容,即n是名词、v是动词。

        关键词的权重(TF-IDF)也就是这个关键词在这篇文章中所出现的比重。有很多不同的数学公式可以用来计算TF-IDF,具体公式不在详细介绍。

  1. import sys
  2. from os import path
  3. import jieba
  4. import jieba.analyse
  5. # 取得现在的路径
  6. d = path.dirname(__file__)
  7. # 读取文本
  8. with open(path.join(d, "C:\\Users\\nsy\\Desktop\\test.txt"), 'r', encoding='utf-8') as f:
  9. text = f.read()
  10. # 去除不要的文字
  11. text = text.replace("", "") # 这里假设您要替换的是一个特定的字符串,但原代码中是空的
  12. text = text.replace("「", "")
  13. text = text.replace("」", "")
  14. text = text.replace(",", "")
  15. text = text.replace(" ", "")
  16. # 使用jieba进行分词
  17. print('/'.join(jieba.cut(text)))
  18. # 开启HMM做分词动作
  19. # 样例1使用自定义字典
  20. jieba.load_userdict(path.join(d, "C:\\Users\\nsy\\Desktop\\userdict.txt.txt")) # 加载自定义字典
  21. # 再次使用自定义字典进行分词
  22. print('/'.join(jieba.cut(text)))
  23. # 样例2取得词性
  24. words = jieba.posseg.cut(text)
  25. for word, flag in words:
  26. print('%s, %s' % (word, flag)) # 显示切割的词语和词性
  27. # 样例3和样例4取得关键字
  28. if sys.version_info > (3, 0):
  29. content = text
  30. else:
  31. content = text.decode('utf-8')
  32. keywords = jieba.analyse.extract_tags(content, topK=20, withWeight=True, allowPOS=('ns', 'n', 'vn', 'v'))
  33. # 访问捕获结果
  34. for item in keywords:
  35. print('%s=%f' % (item[0], item[1])) # 分别为关键词和相应的权重
  36. print("程序执行完毕")

运行结果:

 4.自定分词

        jieba.load_userdict,在jieba之中,还有另一个类似的函数jieba.suggest_freq。

  1. from os import path
  2. import jieba
  3. import jieba.analyse
  4. d=path.dirname(__file__)
  5. text="今天学习好累,还没有效率"
  6. text=text.replace(",","")
  7. print('/'.join(jieba.cut(text)))
  8. jieba.suggest_freq('还没有',True)
  9. print('/'.join(jieba.cut(text)))

 取出断词位置

jieba.tokenize(文字)
  1. import sys
  2. from os import path
  3. import jieba
  4. # 获取脚本文件的目录
  5. d = path.dirname(__file__)
  6. # 定义自定义词典的路径
  7. userdict_path = path.join(d, "C:\\Users\\nsy\\Desktop\\userdict.txt.txt")
  8. # 加载自定义词典
  9. jieba.load_userdict(userdict_path)
  10. # 定义要分词的文本
  11. content = "今天学习好累,在家还没有效率"
  12. # 使用自定义词典进行精确模式分词
  13. print('default' + '-'*40)
  14. result = jieba.cut(content, use_paddle=False) # 精确模式
  15. for word in result:
  16. print(word)
  17. # 使用自定义词典进行搜索引擎模式分词
  18. print('tokenize search' + '-'*40)
  19. result = jieba.cut_for_search(content) # 搜索引擎模式
  20. for word in result:
  21. print(word)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/代码探险家/article/detail/906712
推荐阅读
相关标签
  

闽ICP备14008679号