当前位置:   article > 正文

python------统计词频(中文)_python 词频分析 去除常用单词

python 词频分析 去除常用单词

在这里统计作家玛格丽特·米切尔创作的<<飘>>第一部主要人物的出现次数,并按次数从高到低进行排序。

  • jieba

由于文本是从网上找的中文文本,因此在这里使用到了中文分词词库jieba,jieba支持三种分词模式,精确模式,全模式,以及搜索引擎模式,精确模式,顾名思义,它较另外两种精确度更高,因此使用最广泛。
下面是一个分词例子,可以看出精确模式的优势。

在这里插入图片描述

  • lambda函数用法
    在这里使用到了lambda函数,其具体用法可以参考博客https://blog.csdn.net/zjuxsl/article/details/79437563
  • 处理流程
    本实例分为以下3个步骤:
    1)对文本进行分词并提取词语
    2)对每个单词进行计数,并删除无意义的词语。
    3)将词语及数量按从小到大顺序排序

代码:

import jieba
#打开文件。
#open()的
  • 1
  • 2
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/109739
推荐阅读
相关标签
  

闽ICP备14008679号