赞
踩
Scrapy爬虫框架,从入门到放弃
最近,感觉我又刑了!
在经过京东反爬的阴影之后,就开始入门Scrapy爬虫框架了。
很难,但获取网页效率也快得多了。
例如,构造一个回调函数便可获取多页,取代了传统的selenium模拟点下一页!
*前奏:在开始scrapy学习之前,需要安装好scrapy所依赖的模块之后,再在cmd输入 pip3 install scrapy ,直接安装scrapy会报错。
scrapy所依赖的模块包括:lxml,pyOpenSSL,Twisted,PyWin32,其中pyOpenSSL,Twisted需要先下载wheel文件,再通过pip安装;PyWin32从官方的网站下载对应的版本即可
pyOpenSSL,Twisted资源:链接:https://pan.baidu.com/s/1GuwJ-UcqEifdt8zg4n4tow
提取码:8888
PyWin32官网:https://sourceforge.net/projects/pywin32/files/pywin32
如何开启一个scrapy项目?
答:scrapy项目通过命令行创建,电脑创建一个scrapy_test文件夹,
打开cmd命令行,切换到scrapy_test文件夹,输入以下命令
scrapy startproject test # test 为想创建项目名
创建完项目后,在test文件夹有很多文件,后面需要用到,找到spider文件夹,并切换到该目录,输入以下命令
scrapy genspider baidu www.baidu.com #所要访问的网站,一般以之为命名
在spider目录下创建一个baidu.py文件,打开看看(先前创了一个,原理同上)。
其中,baidu就相当于name。
这样,便可正式启动开始一个项目了。
同时,在test文件夹,会发现有items.py,middleware.py,settings.py等文件,根据项目需求可一一配置。
注意:
其中,项目名需要设置source root ,便于后期import 同包文件,这一步非常关键,我居然在这一步搞了半天。
方法:
鼠标右键单击项目名,选择Make Directory as ,选择Resource Root
结语:以上便是开始学习scrapy需要注意的地方,万事开头难,配置好一切,便可开始学习,从入门到放弃,一起加油!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。