当前位置:   article > 正文

python 中文统计词频,分词,去除停止词

编程统计中文文章词频,去掉一些无用的词语最后排序
Python
# coding: utf-8 # In[46]: import <span class="wp_keywordlink_affiliate"><a href="https://www.168seo.cn/tag/jieba" title="View all posts in jieba" target="_blank">jieba</a></span> text = '''新乡SEO 昊天 seo 168seo.cn 免费分享最新的SEO技术,本站的目的是与同行交流SEO知识,并提供企业网站优化、企业网站诊断等服务,白帽SEO从我做起,专注用户体验研究'' ''' seg_list = <span class="wp_keywordlink_affiliate"><a href="https://www.168seo.cn/tag/jieba" title="View all posts in jieba" target="_blank">jieba</a></span>.cut_for_search(text) # 搜索引擎模式 # 对于要处理的文本进行搜索引擎分词处理 data = list(seg_list) # 分词后 转化成list stopwords = [line.rstrip() for line in open('stopwords.txt', 'r', encoding="gbk").readlines()] # 读取停止词,生成list data = [d for d in data if d not in stopwords] # 剔除 停止词 c = dict.fromkeys(data, 0) # 构造构造字典,并且默认值为0 for x in data: c[x] += 1 # 统计频次 newc = sorted(c.items(), key=lambda x: x[1], reverse=True) # 进行高频词排序 print(newc) # In[ ]:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
# coding: utf-8
 
# In[46]:
 
 
import jieba
 
text = '''新乡SEO 昊天 seo 168seo.cn 免费分享最新的SEO技术,本站的目的是与同行交流SEO知识,并提供企业网站优化、企业网站诊断等服务,白帽SEO从我做起,专注用户体验研究''
'''
seg_list = jieba . cut_for_search ( text )    # 搜索引擎模式
# 对于要处理的文本进行搜索引擎分词处理
data = list ( seg_list )
# 分词后 转化成list
stopwords = [ line . rstrip ( ) for line in open ( 'stopwords.txt' , 'r' , encoding = "gbk" ) . readlines ( ) ]
# 读取停止词,生成list
data = [ d for d in data if d not in stopwords ]
# 剔除 停止词
 
c = dict . fromkeys ( data , 0 )
 
# 构造构造字典,并且默认值为0
 
for x in data :
     c [ x ] += 1
# 统计频次
 
newc = sorted ( c . items ( ) , key = lambda x : x [ 1 ] , reverse = True )
# 进行高频词排序
 
print ( newc )
 
 
# In[ ]:

源码 以及 停止词 已放到 github上

https://github.com/huahuizi/python_get_word




  • zeropython 微信公众号 5868037 QQ号 5868037@qq.com QQ邮箱
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/很楠不爱3/article/detail/109780
推荐阅读
相关标签
  

闽ICP备14008679号