当前位置:   article > 正文

python :中英文文本预处理(包含去标点分词词干提取)_编写英文预处理函数 engpreprocess(),对输入的一个英文段落实现以下功能:分词、词

编写英文预处理函数 engpreprocess(),对输入的一个英文段落实现以下功能:分词、词

python :中英文文本预处理(包含去标点/分词/词干提取)

       在做文本分析之前,一般我们都需要进行文本的预处理。这一步其实和做数据时的数据清洗非常的相像。在对文本进行清洗的时候,我们需要分成中文和英文两种语言来进行,因为语言的不同,我们需要进行的操作也不同:

  1. 英文:大小写的处理,标点符号的处理,文本的分词,去除停用词,以及词干的提取(cleaning提取成clean)
  2. 中文:标点符号的处理,文本的分词

       下面我们分开来记述操作!~


英文的处理

python包:nltk+string

text = 'Natural language processing (NLP) Is A SuBfield Of Computer scIence, inFormation eNgineering, and artificial intelligence concerned with the interactions between computers and human (natural) languages, in particular how to program computers to process and analyze large amounts of natural language data!?!!....'
  • 1

以上文本选自wikipedia的nlp介绍,为了测试效果,我自己把小写改成了大写,添加了几个标点。

大小写转换

操作过程一般都是大写字母转换成小写字母,毕竟表示的是一个意思。

#转换成小写
lower = text.lower
  • 1
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/476155
推荐阅读
相关标签
  

闽ICP备14008679号