当前位置:   article > 正文

商品评论情感分析——基于商品评论建立的产品综合评价模型(1)

商品评论情感分析

1.背景

随着电商行业的迅猛发展,线上销售也成为广大商家销售的一种重要手段。电商产品每天都会产生大量的交易数据和用户评论数据,其中包含很多有价值的信息

因此本文对某平台上微波炉的评论数据进行挖掘分析,建立商品综合评价模型,希望可以提供为商家和平台制定新的营销策略或者产品改善方面提供宝贵意见。

1.1问题分析

我们的目标是建立基于用户评论数据的商品综合评价模型,具体步骤:

  • 为了保证数据的质量,以及之后分析过程的准确度,我们首先对数据进行预处理,包括筛选出无关产品、删除重复评论等;
  • 对商品文本评论进行情感分析,量化情感度,给出情感得分。建立LDA主题模型提取评论的高频词,推测出客户对商品、物流、服务等方面的具体评价;
  • 建立产品评分模型。通过TOPSIS法等方法处理情感得分与星级,并依据它们得出单条评论的最终得分,同时构建时间序列模型,判断产品的声誉在在线市场中的变化趋势,并构造单条评论可信度系数1,最后给出加权后的各品牌口碑得分

2.数据预处理

在进行中文分词之前,必须要考虑到评论中存在很多没有实际价值的条目,如果把这些无用的评论数据也引入后续的分析工作中,一定会对分析造成很大的偏差,所以要对评论数据进行预处理,把大量的没有价值的评论删掉,我们进行的文本预处理主要包括删除无关数据文本去重

2.1删除无关数据

数据预处理还要考虑到数据的准确性,部分数据并非该商品的评论,因此我们删去商品标题中没有“微波炉”的评论,此步骤利用excel操作即可:
数据——筛选——文本筛选——不包含“微波炉”
找到12个非微波炉的评论数据

2.2文本去重

#导入数据
>>> import pandas as pd
>>> inputfile='C:/Users/Linda Leung/Downloads/Problem_C_Data/Problem_C_Data/micro.csv'
>>> data=pd.read_csv(inputfile,encoding='utf-8',header=None)
>>> data.head()
  • 1
  • 2
  • 3
  • 4
  • 5

在这里插入图片描述

去除一些自动好评的数据,重复的评论等没有价值的数据。大多数文本去重是基于文本之间的相似度,包括编辑距离去重,simahash算法去重等,这些会使得我们去除一些相近的表达,造成错删。故本文采用比较删除法,直接删除完全相同的评论,尽量保留有用的评论。

>>> outputfile='C:/Users/Linda Leung/Downloads/Problem_C_Data/Problem_C_Data/micro_process1.txt'
>>> data_unique = pd.DataFrame(data[0].unique())
>>> l2=len(data_unique)
>>> data_unique.to_csv(outputfile,index=False,header=False,encoding='utf-8')
>>> print(u'共%s条评论,删除了%s条评论。' %(l1,l1 - l2))
  • 1
  • 2
  • 3
  • 4
  • 5

共1603条评论,删除了13条评论。

3.情感分析

我们采用Python中的TextBlob2对评论文本进行情感分析,获得情感得分。情感得分越接近-1说明越消极,越接近1越积极。
我们假设情感得分等于x, 若x<-0.5,则情感判定为消极;x>0.5,则情感判定为积极; -0.5<x<0.5,则情感判定为中立。

最终将评论文本分成了积极情绪的评论文本、中性评论文本和消极情绪的评论文本。

inputfile='C:/Users/Linda Leung/Downloads/Problem_C_Data/Problem_C_Data/micro_process1.txt'
data2=pd.read_csv
  • 1
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/691877
推荐阅读
相关标签
  

闽ICP备14008679号