赞
踩
从今天开始准备整理一下,之前的写过的一些小项目。
这一个项目是我唯一一个接触NLP的项目,因为身边的老师大多是从事CV 机器视觉一块的项目。
而对于我而言,NLP其实是我学习机器学习的初衷。
所以关于这一个项目,我们第一个要做的就是获取数据。
这是作为机器学习的根本。没有数据根本就谈不上学习。
前言—选择网站进行数据挖掘
这次实训我们一共获取了飞猪, 途牛, 驴妈妈, 美团, 携程, 去哪儿, 马蜂窝,猫途鹰等相关网站的关于阳朔旅游景点的评论。
这其中比较复杂的是大众点评,因为cookie限制非常严。我和另一个同学一人选择一半进行爬取数据。
以下我用去哪儿的网站爬虫为例。
我们发现其实去哪儿的数据是一个开发的平台,并且我不需要翻阅每一个网站,我只需要找到他每一页的json页面直接获取,十分的方便。
具体是怎么发现内含json直接传值,我们就必须先打开web控制台。
我用的firefox浏览器,打开网选项,并且在网络中只看XHR。
这时候,我们再通过点击下一页评论就可以找到json的相关网站。
通过对比json网站,我们发现 他的网
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。