赞
踩
至少包含一个汉字:"^.*[\\u4e00-\\u9fa5].*$"
电话号码:"\\d{3,4}[-\\s]*\\d{4}\\s*\\d{4}|\\(\\d{3}\\)\\d{4}\\s*\\d{4}|\\d{3}\\d{8}|\\d{4}-\\d{7}"
新浪短网址,域名加6到7位字母数字组成的 :"t.cn/[A-Za-z0-9]{6,7}"
常用的标点符号:"[’!\"#$%&\\'()()*+,-./::;;|<=>?@,—。?★、…【】《》?“”‘’![\\]^_`{|}~]+"
多余空格:"\\s {2,}"
正则删除,反射机制去调用方法(反射就是根据字符串名字取找相应的方法)
- import re
- re.sub(pattern,' ',text) #最好是空格,因为知道该地方有替换
- class Normalizer(object):
- def normalize(self,text)
- if hasattr(self,config['name']):
- func = getattr(self,config['name'])
- text = func(text,config['parameter'])
利用配置文件来进行清洗
- import os
-
- config_path = os.environ.get("NLP_CONFIG_PATH")
使用的时候配置好路径
- import os
- os.environ["NLP_CONFIG_PATH"] = "../data/clean_data_config.json"
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。