当前位置:   article > 正文

数据分享|Python酒店评论文本分析:tfidf、贝叶斯、逻辑回归,支持向量机SVM、K最邻近KNN、随机森林、LDA主题模型...

根据已标注图片分类进行酒店评论的主题预测

全文链接:http://tecdat.cn/?p=31233

随着互联网的普及和移动端的应用的飞速发展,消费者在各大电商平台进行活动交易时产生了大量的行为数据,在线评论文本就是其中一种点击文末“阅读原文”获取完整数据)。

去年,我们为一位客户进行了短暂的咨询工作,他正在构建一个主要基于酒店评论数据的文本分析应用程序。在线评论文本是消费者对消费对象切身体验后以文本的形式反馈至电商平台,被作为大众的舆论观点导向。对此类观点进行有效情感分类不仅可以帮助消费者进行决策,还可以帮助商家对服务进行改善。

本文分析的数据是从某酒店预定网站获取到的评论数据。通过对评论数据的分析,得到影响好差酒店的关键影响因素,并建立模型预测评论所对应的等级。在众多文本中筛选人们评论的关键因素因为存在情感倾向,中文表达的多样,隐性表达使得提取关键影响因素称为本项目的一大挑战。另一个挑战是评分预测,由于数据的不规则,对于模型的选取又是一大难点。

任务/目标

l  根据给定评价(review),预测评分(rating)

l  提取“好”,“差”酒店的关键影响因素

分析思路:

对于问题一,需要根据给定评价预测评分,由于每一条评论都有1~5五种评分方式,因此属于文本多分类问题,文本分类的算法很多,有机器学习方面的也有深度学习方面的,在这里我们尝试了朴素贝叶斯、逻辑回归,支持向量机(SVM)、K最邻近算法(KNN)、随机森林等多分类算法,并进行了相关比较。本次分类任务的最大特点是我们处理的是英文的文本,为此我们使用了经典的tf-idf模型进行特征提取,对train_data进行初步简单的划分,并训练后发现预测准确率都不高。随后我们从数据预处理、调参以及数据划分和训练及预测方法上做了优化处理,具体来说,就是数据预处理时充分考虑了英文文本自身的特点,调参时用到了控制变量法和交叉检验法,同时在训练集与测试集划分和紧接着的训练与预测上也用的是交叉检验法。最后对我们的Testing data.csv 文件进行预测时,我们是选取了准确率最高的模型和我们自己调试的相应参数。

对于问题二,提取“好”,“差”酒店的关键影响因素,所研究的情感分类是二分类(正面情感和负面情感)的,给定文本已经有了评分标签,故可以通过评分标签对文本进行分类,由于3分的评论情感倾向不明确,影响分类的准确性,为了得到更好的结果,剔除3分的评论数据,将评分为1-2的差评数据和评分为4-5的好评数据进行训练,并根据TF-IDF算法提取关键词绘制词云图。根据词云图可以初步确定好评和差评的关键因素。但是由于用户表达的情感倾向和其使用的关键词存在反向否定的情况,为了进一步捕捉用户的情感倾向,使用具有潜在狄氏分配的主题模型对所有评论数据建模,每一条评论,可视为一个主题,评论文本共19003条,对所有文本进行主题建模,设置主题参数为2,得到两个主题的按升序排列的单词重要性矩阵,显示前60个主题关键词,得到结果

如下训练样本(只列举部分特征)。

9141dd45c27fde163c304dffa5fff553.png

评分预测建模

1. 朴素贝叶斯模型

贝叶斯方法以贝叶斯原理为基础,在先验概率的基础上将数据集归为n个标签中后验概率最大的标签(基于最小错误率贝叶斯决策原则),其特点是结合先验概率和后验概率,避免了只使用先验概率的主观偏见,也避免了单独使用样本信息的过拟合现象。本次实验中贝叶斯算法训练速度最快ÿ

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/木道寻08/article/detail/945826
推荐阅读
相关标签
  

闽ICP备14008679号