当前位置:   article > 正文

python实现中文词语词频统计_中文口语词汇统计

中文口语词汇统计
import jieba

#1.获取文本
with open('book.txt','r',encoding='UTF-8') as fp:
    txt = fp.read()

#2.分词
words = jieba.lcut(txt)
# print(words)

#3.过滤文本
for ch in ',。?!“ ” ;:、》《\n \u3000':
    if ch in words:
        for i in range(words.count(ch)):
            words.remove(ch)
# print(words)

#4.统计词语及个数
counts = {}
for word in words:
    if(len(word)>=2):
        counts[word] = counts.get(word,0) + 1

#5.排序输出
items = list(counts.items())#items()将字典的键值对以元组的形式打包,方便后续进行sort()排序,将元组转化为列表类
print(items)
items.sort(key=lambda x:x[1],reverse=True)
for i in range(20):
    word,count=items[i]
    print('{0:^4}\t{1:^3}'.format(word,count))#冒号前的0和1表示输出值的顺序,冒号后的<表示左对齐,>右对齐,数字代表宽度

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/109775
推荐阅读
相关标签
  

闽ICP备14008679号