赞
踩
先做好预处理和分词,word_list为处理好的列表
import nltk
freqlist = nltk.FreqDist(word_list) #生成一个词频的字典
freqlist['词'] #查一个词的频率
freqlist.keys() #看里面所有的词
freqlist.tabulate(10) #前十个高频词,表显示
freqlist.most_common(5) #列表显示,列表中是元组
import pandas as pd
df = pd.DataFrame(wd,columns = ['word']) #wd是之前分好的所有词 pandas重新写成表 word是列名
df.head(5)
result = df.groupby(['word']).size()
freqlist = result.sort_values(ascending=False)
freqlist[:20]
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。