当前位置:   article > 正文

NLP--数据清洗_nlp数据清洗

nlp数据清洗

对于爬取的文本进行数据分析之前,需要对文本先进行清洗和整理。主要是两个方面:

一、去停用词:建立停用词表,实际上就是在文本文件中输入想要删除的词。

步骤:

(1)文本分词

(2)去除停用词

(3)将去停用词后的文本存到txt文本中

二、词性标注:词性的数量是有限的,通过词性标注更好的对文本进行分析。使用jieba库自带的posseg函数对去停用词后的文本进行词性标注。

 

 

 

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/811571
推荐阅读
相关标签
  

闽ICP备14008679号