当前位置:   article > 正文

中文文本预处理_对下列一段文本进行预处理,去掉特殊符号和空格,包括数字、标点、字母,将繁体字转

对下列一段文本进行预处理,去掉特殊符号和空格,包括数字、标点、字母,将繁体字转

 在进行文本分析时,我们一大半的时间都会花在文本预处理上,而中文和英文的预处理流程稍有不同,本文就中文文本的预处理做一个总结。

1、文本数据准备

 使用已经有的语料库,按照Python读取文本内容的方法读取文本文件内容。此处为了一步步演示过程,所以先使用句子,最后再整合。

2、去除指定无用的符号

 我们爬取到的文本有时候会有很多空格或者是其他一些无用的符号,如果保留这些符号,在分词的时候这些符号也会被分出来,就会导致分词的结果不是很好。这个时候我们就可以用replace()这个方法去掉所有你不想要的符号:
例1:去除空格

contents = '   大家好, 欢迎一起来学习文本的空格   去除   !'
print('处理前文本:'+contents)
def process(our_data):     #定义函数
    content = our_data.replace(' ','')   # 去掉文本中的空格
    print('处理后文本:'+content)
process(contents)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

运行结果:


                
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/356699
推荐阅读
相关标签
  

闽ICP备14008679号