赞
踩
微信公众号:数据分析与统计学习
如有问题或建议,请公众号留言
最近更新时间:2018-7-28
依据网页的结构元素,网络爬虫可以分为爬取静态网页和动态网页,网络世界中大部分的网站属于静态网页,例如各政府,企业,组织机构的官方网站;动态网页例如淘宝、各大新闻门户网站等。
本次主要讲爬取静态网页,以爬取广州链家二手房的数据为例。
首先观察广州链家二手房的网页结构。发现房源信息都在标签<li class="clear LOGCLICKDATA">,房源的具体信息都在该标签下的各子标签中。此外,还发现,总共100页,每一网页的结构都相同,且翻页的链接也有明显的规律,属于静态网页。
我是在Windows系统下用Pycharm集成开发环境实现网络爬取广州链家二手房数据,解释器是用Anaconda。
一个轻量级的网络爬虫项目,应该具备如下两个步骤。第一,获取网页上的目标链接(URL&
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。