赞
踩
需要完成的工作有:
1、将文本信息从txt文件中读取出来
2、将字符串表示的文本信息进行分词处理
3、进行词频统计
可以这样子实现上面三个步骤:
1、使用with open ...打开文件,然后然后使用f.read()将文件中的内容读取出来。(如果文件较大可以分多次读取)
2、使用jieba库的cut函数进行分词(这里建议看看分词的情况是否满意,如果有些词没有按照自己想要的情况来分,可以使用jieba.add_word函数将自定义的词告诉jieba分词工具,具体的用法网上也有教程)
2.5、分词之后建议进行一次停用词的去除,否则可能会影响后续的词频统计结果。去除的方法可以自行编写for循环遍历词语列表,一一判断并去除即可。
3、jieba.cut分词后得到的是一个列表,列表中的每一项是一个词语。统计词频可以使用的方法很多,自己写个for循环判断也是可以的。不过推荐使用Python内置库collections里面的Counter进行统计,这样代码比较简洁美观。假设分词后得到的列表名为word_list,统计词频只需要这样写:word_counts=collections.Counter(word_list)
(记得先导入collections包)
如果结果太多,只想看词频最高的10个词,可以这样:
word_counts.most_common(10)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。