赞
踩
对于爬取的文本进行数据分析之前,需要对文本先进行清洗和整理。主要是两个方面:
一、去停用词:建立停用词表,实际上就是在文本文件中输入想要删除的词。
步骤:
(1)文本分词
(2)去除停用词
(3)将去停用词后的文本存到txt文本中
二、词性标注:词性的数量是有限的,通过词性标注更好的对文本进行分析。使用jieba库自带的posseg函数对去停用词后的文本进行词性标注。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。