当前位置:   article > 正文

单文本分析--词频统计_单k文本

单k文本

任务说明:读取单个或多个文本内容(txt,word,pdf),对文章进行分词(中文),并统计每个词语出现的次数并按从大到小排序。同时通过停用词库排除停用词,并展示结果读取单个文本内容(txt,word,pdf),对文章进行分词(中文),并统计每个词语出现的次数并按从大到小排序。同时通过停用词库排除停用词。

需要掌握的知识:
(1)掌握自然语言分析的基本术语:词频,停用词
(2)jieba模块的使用
(3)collections模块Counter函数
(4)读取不同格式文本的方法

知识覆盖
(1)词频:指某一个给定的词语在该文件中出现的次数
停用词:停用词是指在信息检索中,对于结果或目的 无意义,无作用的词或词组。如‘的’,‘了’,‘是’等。这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。
(2)jieba模块
Python中文分词组件
分词:
待分词的字符串可以是unicode或UTF-8字符串,GBK字符串。注意:不建议直接输入GBK字符串,可能会错误地解码成UTF-8

  1. jieba.cut ()方法接受三个输入参数:需要分词的字符串; cut_all参数用来控制是否采用全模式; HMM参数用来控制是否使用HMM模型
  2. jieba.cut_for_search() 方法接受两个参数:需要分词的字符串;是否使用HMM模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细
  3. jieba
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/171089
推荐阅读
相关标签
  

闽ICP备14008679号