赞
踩
基于python的scrapy框架完成的本项目,想要跑通首先呢你得安装好python环境,搭建python环境,在本文章就不做详细描述,直接入手吧!
安装scrapy框架,一般你网速还好就可以直接安装成功!
pip install scrapy
明确一下我们的需求:
需要爬取的链接如下:
通过对比爬取链接,我们发现前面的链接基本上都相同,唯一不同的是最后的数字,最后的数字代表哪一页,明确了这些我们就可以着手创建scrapy项目
- scrapy startproject lianjia # 创建一个名为 lianjia的爬虫项目
-
- cd lianjia # 进入刚创建的项目
-
- scrapy genspider lianjia_spider bj.lianjia.com # 创建lianjia的spider
发现列表页里面需要的数据都是在li标签里,继续往下分析,因为咱们本项目的爬取思路是爬标题,获取到标题里面的链接,然后进详情页继续爬取数据,通过定位找到详情页的入口,咱们继续往下走
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。