赞
踩
环境:Windows7+python3.6+Pycharm2017
目标:抓取链家北京地区已成交二手房信息(无需登录),如下图,户型、朝向、成交时间价格等,保存到csv。最后一共抓取约58W数据,程序运行8h。
---全部文章: 京东爬虫 、链家爬虫、美团爬虫、微信公众号爬虫、字体反爬、Django笔记、阿里云部署、vi\vim入门----
一、打开北京二手房网页https://bj.lianjia.com/ershoufang/,默认显示的是在售二手房信息,一共45634套,但是只显示了100页,每页30条,这3000条信息是没有任何反爬的,可以直接抓取,如果要抓取全部45634条,应该要按小区来。本文主要讨论已成交二手房信息,数据量更大,难度也要高一点。
二、点击页面右上角成交,切换到已成交二手房信息,显示一共有73W条数据,但是也只显示100页,每页30条共3000条信息。而且还有个问题就是近30天内成交的房源的成交时间、价格信息是不显示的。我们可以右键检查进入开发者模式,在网页的html代码中找到房源的详情页面的url,然后进入详情页面抓取成交时间、价格。
三、如何抓取尽可能多的房源信息
现在问题就是73W已成交二手房信息,怎么能尽可能多的抓下来。 办法就是这些房源通过分类来抓取,比如分不同区域,价格,小区,这样可以抓到更多的数据。本文选用按小区抓取。点击页面上方小区,进入如下页面,再点击返回全部小区列表。显示一共有11435个小区,虽然下面翻页只有30页,但是我们可以通过构造url来翻页,实测可以翻到100页,100页后都是重复的,共3000个小区。每页的url如下:
第2页:https://bj.lianjia.com/xiaoqu/pg2/
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。