当前位置:   article > 正文

python如何实现其他文本的统计_如何使用Python3对一个txt文件进行词频统计?

用python编写一个程序,读取一个文本文件(text2.txt),统计文件中每个单词的频率,并

需要完成的工作有:

1、将文本信息从txt文件中读取出来

2、将字符串表示的文本信息进行分词处理

3、进行词频统计

可以这样子实现上面三个步骤:

1、使用with open ...打开文件,然后然后使用f.read()将文件中的内容读取出来。(如果文件较大可以分多次读取)

2、使用jieba库的cut函数进行分词(这里建议看看分词的情况是否满意,如果有些词没有按照自己想要的情况来分,可以使用jieba.add_word函数将自定义的词告诉jieba分词工具,具体的用法网上也有教程)

2.5、分词之后建议进行一次停用词的去除,否则可能会影响后续的词频统计结果。去除的方法可以自行编写for循环遍历词语列表,一一判断并去除即可。

3、jieba.cut分词后得到的是一个列表,列表中的每一项是一个词语。统计词频可以使用的方法很多,自己写个for循环判断也是可以的。不过推荐使用Python内置库collections里面的Counter进行统计,这样代码比较简洁美观。假设分词后得到的列表名为word_list,统计词频只需要这样写:word_counts=collections.Counter(word_list)

(记得先导入collections包)

如果结果太多,只想看词频最高的10个词,可以这样:

word_counts.most_common(10)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/109776
推荐阅读
相关标签
  

闽ICP备14008679号