当前位置:   article > 正文

python之词频统计_词频统计python代码

词频统计python代码

1、Hamlet英文词频统计

txt = open('hamlet.txt','r').read()

# 将大写变小写,排除大小写差异的干扰
txt = txt.lower()

# 将文本中的特殊字符转化为空格,统一分割方式
for ch in ',./?;:'"<>=+-[]{
   }!~%@()#':
    txt.replace(ch, ' ')     

words = txt.split()    # 按空格分隔,列表形式返回
counts = {
   }         #计数器
for word in words:
    counts[word] = counts.get(word, 0) + 1

# 按照词频从高到低排序
counts = sorted(counts.items(), key = lambda x: x[1], reverse = True)

for i in range(10):
    word, count = counts[i
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/109706
推荐阅读
相关标签
  

闽ICP备14008679号