当前位置:   article > 正文

避坑!!!入门scrapy爬虫框架遇到的坑_scrapy框架京东反爬

scrapy框架京东反爬

Scrapy爬虫框架,从入门到放弃

最近,感觉我又刑了!

在经过京东反爬的阴影之后,就开始入门Scrapy爬虫框架了。

很难,但获取网页效率也快得多了。

例如,构造一个回调函数便可获取多页,取代了传统的selenium模拟点下一页!

*前奏在开始scrapy学习之前,需要安装好scrapy所依赖的模块之后,再在cmd输入 pip3 install scrapy ,直接安装scrapy会报错。

scrapy所依赖的模块包括:lxml,pyOpenSSL,Twisted,PyWin32,其中pyOpenSSL,Twisted需要先下载wheel文件,再通过pip安装;PyWin32从官方的网站下载对应的版本即可

pyOpenSSL,Twisted资源:链接:https://pan.baidu.com/s/1GuwJ-UcqEifdt8zg4n4tow
提取码:8888

PyWin32官网:https://sourceforge.net/projects/pywin32/files/pywin32

如何开启一个scrapy项目?
答:scrapy项目通过命令行创建,电脑创建一个scrapy_test文件夹,
打开cmd命令行,切换到scrapy_test文件夹,输入以下命令

scrapy startproject test # test 为想创建项目名
  • 1

创建完项目后,在test文件夹有很多文件,后面需要用到,找到spider文件夹,并切换到该目录,输入以下命令

scrapy genspider baidu www.baidu.com #所要访问的网站,一般以之为命名
  • 1

在spider目录下创建一个baidu.py文件,打开看看(先前创了一个,原理同上)。
其中,baidu就相当于name。
在这里插入图片描述

这样,便可正式启动开始一个项目了。

同时,在test文件夹,会发现有items.py,middleware.py,settings.py等文件,根据项目需求可一一配置。

注意:

其中,项目名需要设置source root ,便于后期import 同包文件,这一步非常关键,我居然在这一步搞了半天。

方法:

鼠标右键单击项目名,选择Make Directory as ,选择Resource Root

在这里插入图片描述

结语:以上便是开始学习scrapy需要注意的地方,万事开头难,配置好一切,便可开始学习,从入门到放弃,一起加油!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/887424
推荐阅读
相关标签
  

闽ICP备14008679号