赞
踩
本章代码建议在linux下面运行,windows下安装gensim会比较麻烦。
我是在python3.5.2的pycharm下运行的
下面代码的意思是从评论数据中抽取品牌是美的的数据(15-1)
这里一句话概括接下来的去重概念,文本去重和机械压缩去重
文本去重指的是数据条之间的去重。
机械压缩去重指的是数据条内部,词语与词语之间的去重。
下面代码是用来文本去重的(15-2)。
下面代码的作用是把评论前面的评分删除(15-3):
接下来是进行分词(详细解释请见代码中注释)(15-4)
最后是LDA代码(15-5)
通俗解释下LDA算法干嘛的,我们知道:
K-means是聚类的,他主要是处理数据的,对数据进行聚类。
LDA其实也是聚类的,主要是处理字符串的,对字符串进行聚类。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。