赞
踩
各位数据挖掘小伙伴,当你好不容易从网页上爬取了一大堆文本意见,然后摩拳擦掌准备大干一番时,忽然发现文本里面有很多乱七八糟的东西,比如:标点、重复词句、字符、无意义短句等等,是不是感觉有点无助。像图1。
下面介绍4个步骤,教你搞定上面问题。
步骤1.删掉中文里面的字母、数字、符号等噪声
咱们做中文含义分析时,不用管英语、字符、数字这些内容。这里主要使用正则表达式来删除标点符号、英文和数字。
关键代码包括:
r='[\\s+\\.!\\/_,$%^*(+\\"\\')]+|[::+——()?【】“”!,。?、~@#¥%……&*()]+'
r1='[^\\u4e00-\\u9fa5]'
for a_string in filelist:
a_string=str(a_string)
temp = re.sub(r,'',a_string) #删除标点符号
temp
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。