赞
踩
随着电商行业的迅猛发展,线上销售也成为广大商家销售的一种重要手段。电商产品每天都会产生大量的交易数据和用户评论数据,其中包含很多有价值的信息。
因此本文对某平台上微波炉的评论数据进行挖掘分析,建立商品综合评价模型,希望可以提供为商家和平台制定新的营销策略或者产品改善方面提供宝贵意见。
我们的目标是建立基于用户评论数据的商品综合评价模型,具体步骤:
在进行中文分词之前,必须要考虑到评论中存在很多没有实际价值的条目,如果把这些无用的评论数据也引入后续的分析工作中,一定会对分析造成很大的偏差,所以要对评论数据进行预处理,把大量的没有价值的评论删掉,我们进行的文本预处理主要包括删除无关数据和文本去重。
数据预处理还要考虑到数据的准确性,部分数据并非该商品的评论,因此我们删去商品标题中没有“微波炉”的评论,此步骤利用excel操作即可:
数据——筛选——文本筛选——不包含“微波炉”
#导入数据
>>> import pandas as pd
>>> inputfile='C:/Users/Linda Leung/Downloads/Problem_C_Data/Problem_C_Data/micro.csv'
>>> data=pd.read_csv(inputfile,encoding='utf-8',header=None)
>>> data.head()
去除一些自动好评的数据,重复的评论等没有价值的数据。大多数文本去重是基于文本之间的相似度,包括编辑距离去重,simahash算法去重等,这些会使得我们去除一些相近的表达,造成错删。故本文采用比较删除法,直接删除完全相同的评论,尽量保留有用的评论。
>>> outputfile='C:/Users/Linda Leung/Downloads/Problem_C_Data/Problem_C_Data/micro_process1.txt'
>>> data_unique = pd.DataFrame(data[0].unique())
>>> l2=len(data_unique)
>>> data_unique.to_csv(outputfile,index=False,header=False,encoding='utf-8')
>>> print(u'共%s条评论,删除了%s条评论。' %(l1,l1 - l2))
共1603条评论,删除了13条评论。
我们采用Python中的TextBlob2对评论文本进行情感分析,获得情感得分。情感得分越接近-1说明越消极,越接近1越积极。
我们假设情感得分等于x, 若x<-0.5,则情感判定为消极;x>0.5,则情感判定为积极; -0.5<x<0.5,则情感判定为中立。
最终将评论文本分成了积极情绪的评论文本、中性评论文本和消极情绪的评论文本。
inputfile='C:/Users/Linda Leung/Downloads/Problem_C_Data/Problem_C_Data/micro_process1.txt'
data2=pd.read_csv
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。