当前位置:   article > 正文

旅游评论情感分析(1)---爬虫(json篇)

旅游评论情感分析

从今天开始准备整理一下,之前的写过的一些小项目。

这一个项目是我唯一一个接触NLP的项目,因为身边的老师大多是从事CV 机器视觉一块的项目。
而对于我而言,NLP其实是我学习机器学习的初衷。


所以关于这一个项目,我们第一个要做的就是获取数据。
这是作为机器学习的根本。没有数据根本就谈不上学习。

前言—选择网站进行数据挖掘

这次实训我们一共获取了飞猪, 途牛, 驴妈妈, 美团, 携程, 去哪儿, 马蜂窝,猫途鹰等相关网站的关于阳朔旅游景点的评论。

这其中比较复杂的是大众点评,因为cookie限制非常严。我和另一个同学一人选择一半进行爬取数据。

以下我用去哪儿的网站爬虫为例。

  1. 获取网页链接
    在这里插入图片描述
    这是我们事先做好阳朔在去哪儿网的网站调查。

我们发现其实去哪儿的数据是一个开发的平台,并且我不需要翻阅每一个网站,我只需要找到他每一页的json页面直接获取,十分的方便。

具体是怎么发现内含json直接传值,我们就必须先打开web控制台。
怎么获取json网站

我用的firefox浏览器,打开网选项,并且在网络中只看XHR。

这时候,我们再通过点击下一页评论就可以找到json的相关网站。

通过对比json网站,我们发现 他的网

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/453048
推荐阅读
相关标签
  

闽ICP备14008679号