赞
踩
任务说明:读取单个或多个文本内容(txt,word,pdf),对文章进行分词(中文),并统计每个词语出现的次数并按从大到小排序。同时通过停用词库排除停用词,并展示结果读取单个文本内容(txt,word,pdf),对文章进行分词(中文),并统计每个词语出现的次数并按从大到小排序。同时通过停用词库排除停用词。
需要掌握的知识:
(1)掌握自然语言分析的基本术语:词频,停用词
(2)jieba模块的使用
(3)collections模块Counter函数
(4)读取不同格式文本的方法
知识覆盖:
(1)词频:指某一个给定的词语在该文件中出现的次数
停用词:停用词是指在信息检索中,对于结果或目的 无意义,无作用的词或词组。如‘的’,‘了’,‘是’等。这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。
(2)jieba模块:
Python中文分词组件
分词:
待分词的字符串可以是unicode或UTF-8字符串,GBK字符串。注意:不建议直接输入GBK字符串,可能会错误地解码成UTF-8
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。