当前位置:   article > 正文

关于商品评论的情感分析方法研究(小记)_商品评论情感分析

商品评论情感分析

关于商品评论的情感分析方法研究(论文阅读记录

对商品评论进行分析挖掘,得出情感倾向,为消费者提供参考,帮助卖家完善商品质量,提高服务水平。

研究机器学习和深度学习的情感分析:比较了jieba、pyhanlp、snownlp分词技术对模型的影响。jieba分析在速度和质量上优于其他两种。用word2vector(实现词组稠密化表示)训练词向量作为输入。有CBOW(上下文词组独热编码向量作为输入,输出中心词词向量)和、SKip-gram(中心词组独热编码向量作为输入,输出上下文词组词向量)两种方式训练。

论文最终选择skip-gram进行词向量训练(相比于CBOW,skip-gram非常适合数量足够多足够好训练集,因为能够衍生出更多的训练样本并且它的训练结果对于罕见词、罕见搭配更加友好在意词与词之间的语义细节)。gensim里面封装了word2vector。使用层次softmax和负采样技术提升词向量训练速度。

分别用机器学习模型:逻辑回归、SVM、ID3决策树、C4.5决策树、CART决策树、随机森林、朴素贝叶斯,以及深度学习模型:LSTM、BI-LSTM、BI-LSTM+Attention、StackLSTM+Attention进行情感分析。

注意力机制模仿人类视觉机制,关注对决策更有帮助的输入数据的关键部分。由Encoder-Decoder框架衍生Attention框架

BI-LSTM:输入序列倒序读取的结果作为输入传入LSTM模型是反向LSTM,正反向结合为BI-LSTM。

BI-LSTM+Attention,biLSTM对所有输入一视同仁,增加注意力机制可以着重关注对输出影响显著的词语,结合起来取长补短。

StackLSTM+Attention,多层LSTM加注意力机制,学习高层次时间特征,关注关键信息。

模型最终都是经过softmax(归一化指数函数)回归层输出情感极性。(softmax用于多分类,将多个神经元的输出映射到0~1的区间内,即符合0~1的概率分布)

评估标准:Accuracy、Precise、Recall

数据集:GitHub公开数据集,十万条

深度学习模型比较:

机器学习模型比较:词向量未加权的效果优于加权效果

(未加权:每个分词对应一个向量化表示,每个句子向量化表示相加求均值得整个句子向量;加权:tf-idf对更重要词语给予更高权重,将加权评价之后词向量作为输入)

深度学习表现略优于机器学习,但服务器跑数据三到四小时,本机一到两天,机器学习最慢十分钟。

不足及研究方向:Bert、ELMO预训练模型、迁移学习在中文是否适用。文章使用有监督学习算法,实际有标签数据少,可重点研究无标签数据。

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小蓝xlanll/article/detail/628616
推荐阅读
相关标签
  

闽ICP备14008679号