赞
踩
租房/有房要出租的小伙伴们看过来~
衣食住行是生活的基本需求。衣和食好解决,不喜欢的衣服可以买新的,不好吃的食物可以换一家吃。可是在住宿上,买房和租房的置换成本都相对较高,因此房源选择尤为慎重。作为目前买不起房的自然人,我们一般是通过中介来实现租房的需求,比如自如,贝壳找房和链家。看来宇宙的尽头是铁岭,租房的尽头是链家……
链家占据了租赁市场的主导地位,且提供的信息相对公允。但每当我刷超过十个房源,我就会记不起来每一个的信息,也无法可视化去比较很多个房源。那么让我们开始动手,用万能的Python来让链家变成你家,获取链家网上的你想要的信息吧。(真的不是广告)
此次侧重XPath的使用和反爬虫小技巧。XPath是用路径表达式在XML文档中选取节点,这里也同样适用于HTML文档的搜索。
打开上海链家网的租房页面,选择筛选条件,示例如下。确认后地址栏的URL会根据筛选条件而发生变化。(当然如果没有想好想要住的区域,地铁线,租金,面积,朝向,户型也没有关系,可以直接爬取全部的上海房源数据。)
共计28页房源信息,点击切换下一页,观察URL会发现链家网是静态的网页,页面切换通过在URL中加入pg{i}参数实现。因此我们只要能爬取一页的信息,就可以通过参数循环来爬取所有页面。
按F12打开开发者工具,在页面中选择一个元素以进行检查。可以看到右侧的房源列表模块和左边的房源信息是一一对应的。左侧的每一条房源信息都等价于右侧的class属性为content__list--item的一个div图层。因此我们只需要观察了解第一个房源信息即可。
继续展开这个div图层,会发现我们需要的信息基本都被包含在属性为content__list--item--main的子div图层中,尤其是其中几个class为title,description,price的元素里。
以属性为content__list--item--title的paragraph为例&#
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。