旅游评论情感分析(1)---爬虫(json篇)

作者：Monodyee | 2024-04-19 18:11:43

踩

旅游评论情感分析

从今天开始准备整理一下，之前的写过的一些小项目。

这一个项目是我唯一一个接触NLP的项目，因为身边的老师大多是从事CV 机器视觉一块的项目。
而对于我而言，NLP其实是我学习机器学习的初衷。

所以关于这一个项目，我们第一个要做的就是获取数据。
这是作为机器学习的根本。没有数据根本就谈不上学习。

前言—选择网站进行数据挖掘

这次实训我们一共获取了飞猪，途牛，驴妈妈，美团，携程，去哪儿，马蜂窝，猫途鹰等相关网站的关于阳朔旅游景点的评论。

这其中比较复杂的是大众点评，因为cookie限制非常严。我和另一个同学一人选择一半进行爬取数据。

以下我用去哪儿的网站爬虫为例。

我们发现其实去哪儿的数据是一个开发的平台，并且我不需要翻阅每一个网站，我只需要找到他每一页的json页面直接获取，十分的方便。

具体是怎么发现内含json直接传值，我们就必须先打开web控制台。
怎么获取json网站

我用的firefox浏览器，打开网选项，并且在网络中只看XHR。

这时候，我们再通过点击下一页评论就可以找到json的相关网站。

通过对比json网站，我们发现他的网

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Monodyee/article/detail/453048