《Python 数据分析与挖掘实战》第十五章电商产品评论数据LDA主题模型、文本挖掘_数据分析与挖掘主题有哪些

作者：正经夜光杯 | 2024-07-13 11:57:57

踩

数据分析与挖掘主题有哪些

一、分析方法与过程

本次针对京东商城上的“美的”热水器的文本评论数据进行建模分析。本文进行基本的预处理、分词等操作后建立LDA主题模型，实现对文本评论数据的倾向性判断及信息挖掘分析。

（1）利用爬虫进行数据采集（由于最近较忙，爬虫代码等空了再附上，暂且先用书中提供的数据进行建模），原始文本评论数据为

将品牌为“美的”的一列评论抽取，另存为文本文件。代码如下

（2）对数据进行基本处理，包括数据预处理、中文分词、停用词过滤等操作

（2.1）文本去重。去除一些自动好评的数据，重复的评论等没有价值的数据。大多数文本去重是基于文本之间的相似度，包括编辑距离去重，simhash算法去重等，这些会使得我们去除一些相近的表达，造成错删。本文采用比较删除法，尽量保留有用的评论。代码如下

（2.2）文本分词，即将连续的字序列按照一定的规范重新组合成词序列的过程。分词的结果对后续算法有着很大的影响，本文采用jieba分词对文档中的评论数据进行中文分词。

（3）对评论数据进行分析。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/正经夜光杯/article/detail/819301

《Python 数据分析与挖掘实战》第十五章 电商产品评论数据LDA主题模型、文本挖掘_数据分析与挖掘主题有哪些