当前位置:   article > 正文

pandas处理文本特征之特殊字符剔除_pandas删除特定字符

pandas删除特定字符

假设我们有DataFrame数据data,feature_1列为文本数据列,且其中含有特殊字符。
首先我们认识两个正则表达式
\w: 用来匹配字母、数字、下划线字符;
\W: 用来匹配所有与\w不匹配的字符。
可以发现,我们所说的特殊字符就在\W的范围内。

import re
def clear_characters(text):
	return re.sub('\W', '', text)
data[feature_1] = data[feature_1].apply(clear_characters)
  • 1
  • 2
  • 3
  • 4

注:对于apply函数,调用自定义函数时,默认不需要写参数,pandas会自己将feature_1特征的每一行的元素传入。但是,如果clear_characters()函数中需要用到一些其他参数时,可以使用apply函数的args传入,比如:

import re
def clear_characters(text, str_data):
	return re.sub('\W', '', text)
data[feature_1] = data[feature_1].apply(clear_characters, args=('ok',))
  • 1
  • 2
  • 3
  • 4
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/540942
推荐阅读
相关标签
  

闽ICP备14008679号