当前位置:   article > 正文

如何对文本数据进行预处理?——结合常用处理方法谈谈自己的思考_为什么数据预处理要去除特殊字符

为什么数据预处理要去除特殊字符

常用的文本清洗与预处理步骤一般如下:


一、去除数字:

数字在文本分析中一般没有意义,所以在进一步分析前需要去除它们。

【我觉得数字对于语义的理解还是有一定作用的,将所有数字(阿拉伯数字和单词)更换为一个标注<num>会不会更好?】


二、去除链接地址:

链接地址显然也需要在进一步分析前被去掉ÿ

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/432921
推荐阅读
相关标签
  

闽ICP备14008679号