赞
踩
对商品评论进行分析挖掘,得出情感倾向,为消费者提供参考,帮助卖家完善商品质量,提高服务水平。
研究机器学习和深度学习的情感分析:比较了jieba、pyhanlp、snownlp分词技术对模型的影响。jieba分析在速度和质量上优于其他两种。用word2vector(实现词组稠密化表示)训练词向量作为输入。有CBOW(上下文词组独热编码向量作为输入,输出中心词词向量)和、SKip-gram(中心词组独热编码向量作为输入,输出上下文词组词向量)两种方式训练。
论文最终选择skip-gram进行词向量训练(相比于CBOW,skip-gram非常适合数量足够多足够好训练集,因为能够衍生出更多的训练样本,并且它的训练结果对于罕见词、罕见搭配更加友好,在意词与词之间的语义细节)。gensim里面封装了word2vector。使用层次softmax和负采样技术提升词向量训练速度。
分别用机器学习模型:逻辑回归、SVM、ID3决策树、C4.5决策树、CART决策树、随机森林、朴素贝叶斯,以及深度学习模型:LSTM、BI-LSTM、BI-LSTM+Attention、StackLSTM+Attention进行情感分析。
注意力机制模仿人类视觉机制,关注对决策更有帮助的输入数据的关键部分。由Encoder-Decoder框架衍生Attention框架
BI-LSTM:输入序列倒序读取的结果作为输入传入LSTM模型是反向LSTM,正反向结合为BI-LSTM。
BI-LSTM+Attention,biLSTM对所有输入一视同仁,增加注意力机制可以着重关注对输出影响显著的词语,结合起来取长补短。
StackLSTM+Attention,多层LSTM加注意力机制,学习高层次时间特征,关注关键信息。
模型最终都是经过softmax(归一化指数函数)回归层输出情感极性。(softmax用于多分类,将多个神经元的输出映射到0~1的区间内,即符合0~1的概率分布)
评估标准:Accuracy、Precise、Recall
数据集:GitHub公开数据集,十万条
深度学习模型比较:
机器学习模型比较:词向量未加权的效果优于加权效果
(未加权:每个分词对应一个向量化表示,每个句子向量化表示相加求均值得整个句子向量;加权:tf-idf对更重要词语给予更高权重,将加权评价之后词向量作为输入)
深度学习表现略优于机器学习,但服务器跑数据三到四小时,本机一到两天,机器学习最慢十分钟。
不足及研究方向:Bert、ELMO预训练模型、迁移学习在中文是否适用。文章使用有监督学习算法,实际有标签数据少,可重点研究无标签数据。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。