单文本分析--词频统计_单k文本

作者：盐析白兔 | 2024-03-01 04:50:41

踩

单k文本

任务说明：读取单个或多个文本内容(txt,word,pdf),对文章进行分词(中文)，并统计每个词语出现的次数并按从大到小排序。同时通过停用词库排除停用词，并展示结果读取单个文本内容(txt,word,pdf),对文章进行分词(中文)，并统计每个词语出现的次数并按从大到小排序。同时通过停用词库排除停用词。

需要掌握的知识:
(1)掌握自然语言分析的基本术语:词频，停用词
(2)jieba模块的使用
(3)collections模块Counter函数
(4)读取不同格式文本的方法

知识覆盖：
(1)词频：指某一个给定的词语在该文件中出现的次数
停用词：停用词是指在信息检索中，对于结果或目的无意义，无作用的词或词组。如‘的’，‘了’，‘是’等。这些停用词都是人工输入、非自动化生成的，生成后的停用词会形成一个停用词表。
(2)jieba模块：
Python中文分词组件
分词：
待分词的字符串可以是unicode或UTF-8字符串，GBK字符串。注意：不建议直接输入GBK字符串，可能会错误地解码成UTF-8

jieba.cut （）方法接受三个输入参数：需要分词的字符串; cut_all参数用来控制是否采用全模式; HMM参数用来控制是否使用HMM模型
jieba.cut_for_search（）方法接受两个参数：需要分词的字符串;是否使用HMM模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细
jieba

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/盐析白兔/article/detail/171089