赞
踩
stop_path = open(“…/data/stoplist.txt”, ‘r’,encoding=‘UTF-8’)
stop = stop_path.readlines()
stop = [x.replace(‘\n’, ‘’) for x in stop]
word = list(set(word) - set(stop))
result = result[result[‘word’].isin(word)]
n_word = list(result.groupby(by = [‘index_content’])[‘index_content’].count())
index_word = [list(np.arange(0, y)) for y in n_word]
index_word = sum(index_word, []) # 表示词语在改评论的位置
result[‘index_word’] = index_word
result
处理后表格样式
提取含有名词的评论
提取评论中词性含有**“n”(名词)**的评论,
ind = result[[‘n’ in x for x in result[‘nature’]]][‘index_content’].unique()
result = result[[x in ind for x in result[‘index_content’]]]
进行数据预处理后,可绘制词云查看分词效果,词云会将文本中出现频率较高的“关键词”予以视觉上的突出。首先需要对词语进行词频统计,将词频按照降序排序,选择前100个词,使用wordcloud模块中的WordCloud绘制词云,查看分词效果(常用字体代码)
import matplotlib.pyplot as plt
from wordcloud import WordCloud
frequencies = result.groupby(by = [‘word’])[‘word’].count()
frequencies = frequencies.sort_values(ascending = False)
backgroud_Image=plt.imread(‘…/data/pl.jpg’)
wordcloud = WordCloud(font_path=“simkai.ttf”,
max_words=100,
background_color=‘white’,
mask=backgroud_Image)
my_wordcloud = wordcloud.fit_words(frequencies)
plt.imshow(my_wordcloud)
plt.axis(‘off’)
plt.show()
从生成的词云图中可以初步判断用户比较在意的是音质、质感、续航、舒适度等关键词
五、 数据分析
=======
评论数据情感倾向分析
情感倾向也称为情感极性。在某商品评论中,可以理解为用户对该商品表达自身观点所持的态度是支持、反对还是中立,即通常所指的正面情感、负面情感、中性情感。对评论情感倾向进行分析首先要对情感词进行匹配,使用知网发布的“情感分析用词语集 ( beta版)"中的“中文正面评价”词表、“中文负面评价”“中文正面情感”“中文负面情感”词表等。将“中文正面评价”“中文正面情感”两个词表合并,并给每个词语赋予初始权重1,作为正面评论情感词表。将“中文负面评价”“中文负面情感”两个词表合并,并给每个词语赋予初始权重-1,作为负面评论情感词表。
读入正负面评论情感词表,正面词语赋予初始权重1,负面词语赋予初始权重-1,使用merge函数按照词语情感词
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。