赞
踩
本文章环境为Pychram-python3.8
确定Walden.txt文件位置
例如:
将Walden.txt与py代码文件放至同一文件夹
f=open('Walden.txt','r',encoding='utf-8')
如上图,放在桌面上的Walden.txt文件的属性显示位置为C:\Users\iHU\Desktop
可以加一句print(f.read())
观察到
若不加encoding=‘utf-8’
则会显示编码错误(illegal multibyte sequence )
首先import re
把大写字母转为小写line=line.lower()
将各种符号转化为空格line=re.sub('[,.?;:"\'!]','',line)
即
words=line.split()
from collections import Counter
def counter(words):
return Counter(words).most_common(10000)
记录列表words中出现的单词词频,并按大到小的顺序输出(most_common(10000)中的10000是输出元素数范围)
dict={}
dict=counter(words)
print(dict)
利用字典性质,去重复元素
import re
f=open('Walden.txt','r',encoding='utf-8')
line=f.read()
line=line.lower()
line=re.sub('[,.?;:"\'!]','',line)
words=line.split()
from collections import Counter
def counter(words):
return Counter(words).most_common(10000)
dict={}
dict=counter(words)
print(dict)
执行
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。