scrapy爬虫框架抓取北京链家二手房100页信息，先抓列表页，再抓详情页，入坑必看~_链家爬取数据如何超过100页

作者：不正经 | 2024-04-19 08:42:59

踩

链家爬取数据如何超过100页

基于python的scrapy框架完成的本项目，想要跑通首先呢你得安装好python环境，搭建python环境，在本文章就不做详细描述，直接入手吧！

安装scrapy框架，一般你网速还好就可以直接安装成功！

pip install scrapy

明确一下我们的需求：

需要爬取的链接如下：

通过对比爬取链接，我们发现前面的链接基本上都相同，唯一不同的是最后的数字，最后的数字代表哪一页，明确了这些我们就可以着手创建scrapy项目


scrapy startproject lianjia # 创建一个名为 lianjia的爬虫项目
 
cd lianjia # 进入刚创建的项目
 
scrapy genspider lianjia_spider bj.lianjia.com # 创建lianjia的spider

发现列表页里面需要的数据都是在li标签里，继续往下分析，因为咱们本项目的爬取思路是爬标题，获取到标题里面的链接，然后进详情页继续爬取数据，通过定位找到详情页的入口，咱们继续往下走

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/不正经/article/detail/450860