赞
踩
这一章开始讲解Scrapy核心组件的功能与作用,通过流程图了解整体的运行机制,然后了解它的安装与项目创建,为后续实战做好准备。
Scrapy是一个为了爬取网站数据、提取结构性数据而编写的应用框架。它使用Python语言编写,并基于异步网络框架Twisted来实现高性能的爬虫。Scrapy最初是为了页面抓取(更确切地说是网络抓取)而设计的,但它也可以用于获取API返回的数据或通用的网络爬虫。
Scrapy框架主要由以下几个核心组件构成:
Scrapy的各个组件之间的交互过程就像是一个协同工作的流水线,每个组件都有自己特定的任务,并且它们通过消息传递进行交互,确保数据的流畅传递和处理。
起始阶段:Spider与引擎的交互
调度阶段:引擎与调度器的交互
下载阶段:引擎与下载器的交互
解析阶段:引擎与爬虫的交互
数据处理阶段:引擎与项目管道的交互
循环与结束
在这个过程中,每个组件都扮演着特定的角色,并通过消息传递进行交互。这种协同工作的模式使得Scrapy能够高效地爬取和处理网页数据。同时,Scrapy还提供了丰富的中间件机制,允许用户自定义和扩展各个组件之间的交互过程,以满足更复杂的爬取需求。
首先,确保你的Python版本是3.6或以上,因为Scrapy需要Python 3.6+。你可以使用以下命令来安装Scrapy:
pip install scrapy
如果你想卸载Scrapy,可以使用以下命令:
pip uninstall scrapy
如果你需要安装特定版本的Scrapy(例如2.6.1版本),可以使用以下命令:
pip install scrapy==2.6.1
安装完成后,你可以通过以下命令来检查Scrapy是否成功安装:
pip list
在列表中,你应该能看到Scrapy及其版本号。
安装完Scrapy后,你可以开始创建一个新的Scrapy项目。打开终端或命令行,然后导航到你想要创建项目的目录,并使用以下命令来创建一个新的Scrapy项目:
scrapy startproject myproject
这里的myproject
是你的项目名称,你可以根据自己的需要来命名。执行上述命令后,Scrapy会在当前目录下创建一个名为myproject
的新文件夹,其中包含了一些基本的文件和目录结构。
接下来,你可以在myproject
目录下创建一个新的爬虫。使用以下命令来生成一个新的爬虫文件:
cd myproject
scrapy genspider myspider example.com
这里的myspider
是你的爬虫名称,example.com
是你要爬取的网站域名。执行上述命令后,Scrapy会在myproject/spiders
目录下创建一个名为myspider.py
的新文件,其中包含了一个基本的爬虫框架。
注意,安装scrapy需要进入python环境,如果大家是使用Anaconda安装的python环境,需要进去指定的环境才能进行下面操作,实际上我们直接在pycharm中进行即可
进入指定环境和目录,输入scrapy
验证已安装scrapy
创建项目coreSpider
,命令是scrapy startproject coreSpider
进入新创建好的coreSpider
目录,先拿百度为例创建爬虫脚本
再使用pycharm打开新创建好的项目即可
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。