当前位置:   article > 正文

文本清洗_text cleaned

text cleaned

 

一、电话,短网址,汉字正则表达式

     至少包含一个汉字:"^.*[\\u4e00-\\u9fa5].*$"

     电话号码:"\\d{3,4}[-\\s]*\\d{4}\\s*\\d{4}|\\(\\d{3}\\)\\d{4}\\s*\\d{4}|\\d{3}\\d{8}|\\d{4}-\\d{7}"

    新浪短网址,域名加6到7位字母数字组成的  :"t.cn/[A-Za-z0-9]{6,7}"

    常用的标点符号:"[’!\"#$%&\\'()()*+,-./::;;|<=>?@,—。?★、…【】《》?“”‘’![\\]^_`{|}~]+"

    多余空格:"\\s {2,}"

 

二、方法

正则删除,反射机制去调用方法(反射就是根据字符串名字取找相应的方法)

  1. import re
  2. re.sub(pattern,' ',text) #最好是空格,因为知道该地方有替换
  1. class Normalizer(object):
  2. def normalize(self,text)
  3. if hasattr(self,config['name']):
  4. func = getattr(self,config['name'])
  5. text = func(text,config['parameter'])

三、配置文件的引入

利用配置文件来进行清洗

  1. import os
  2. config_path = os.environ.get("NLP_CONFIG_PATH")

使用的时候配置好路径

  1. import os
  2. os.environ["NLP_CONFIG_PATH"] = "../data/clean_data_config.json"


 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/664685
推荐阅读
相关标签
  

闽ICP备14008679号