当前位置:   article > 正文

python文本挖掘教程,4个步骤教你轻松完成文本挖掘预处理(附python代码)

文本挖掘python代码

26731b736ac2d622ea6627467d678b8c.png

各位数据挖掘小伙伴,当你好不容易从网页上爬取了一大堆文本意见,然后摩拳擦掌准备大干一番时,忽然发现文本里面有很多乱七八糟的东西,比如:标点、重复词句、字符、无意义短句等等,是不是感觉有点无助。像图1。

fda06a33ef257fb480534eac6652b63e.png

下面介绍4个步骤,教你搞定上面问题。

步骤1.删掉中文里面的字母、数字、符号等噪声

咱们做中文含义分析时,不用管英语、字符、数字这些内容。这里主要使用正则表达式来删除标点符号、英文和数字。

关键代码包括:

r='[\\s+\\.!\\/_,$%^*(+\\"\\')]+|[::+——()?【】“”!,。?、~@#¥%……&*()]+'

r1='[^\\u4e00-\\u9fa5]'

for a_string in filelist:

a_string=str(a_string)

temp = re.sub(r,'',a_string) #删除标点符号

temp

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/140856
推荐阅读
相关标签
  

闽ICP备14008679号