当前位置: article > 正文

Scrapy 分布式爬虫：基本概念及框架_分布式网络爬虫框架 scrapy

作者：羊村懒王 | 2024-04-12 03:06:23

踩

分布式网络爬虫框架 scrapy

网络爬虫的 wiki 定义如下：

网络爬虫（英语：web crawler），也叫网络蜘蛛（spider），是一种用来自动浏览万维网的网络机器人，用来获取万维网上可用的数据。

对于爬虫本身是做什么的，我们都很熟悉，因此这个定义也不言自明。

网络爬虫的经历了五个发展历程

建立索引
1989年互联网诞生之初没有搜索功能。
1993年6月产生了第一个万维网漫游器，可以抓取互联网上的所有网页，测量网页大小，同年12月首个基于爬虫的搜索引擎诞生
2000年网页API和API爬虫
Salesforce 和 eBay 首先推出自己的API供程序员下载数据使用
发送一组HTTP请求，然后接收JSON或XML的回馈，为开发人员提供了一种更友好的网络爬虫方式
2004 年Python Beautiful Soup
Beautiful Soup可以理解站点的结构，并帮助从HTML容器中解析内容。它被认为是用于网络爬虫的最复杂和最先进的库，也是当今常见和流行的方法之一。
网络抓取软件的可视化
为了降低网络爬虫的编码门槛，使更多有数据爬取需求的人能够使用网络爬虫，可视化的网络爬虫软件，它允许用户轻松简单的选择网页内容，并将这些数据构造成可用的excel文件或数据库。

但是可视化软件的功能始终是有限的，当遇到高定制化、个性化的需求的时候，依然需要专门的爬虫工程师来完成。

一个小型的网络爬虫，比如只爬取数个特定页面的爬虫，或许只要一个 py 文件就足以胜任，但是要爬取上百万页面的大型网络爬虫，就需要一定的架构才能更好的完成任务，这样的爬虫基本上框架如下：
大型爬虫框架

这四个部分最终组成一个应用程序。

整个爬虫的架构流程如下所示

URL管理器实现方式介绍：

使用Python自带的urllib2模块或其他下载库
将互联网上URL对应的网页下载到本地的工具，因为将网页下载到本地才能进行后续的分析和处理
类似于网页浏览器，将URL对应的网页下载到本地存储为本地文件或者内存字符串，然后才能进行分析
urllib2模块：
- 支持直接的URL网页下载
- 或者向网页发送一些需要用户输入的数据
- 甚至支持需要登录网页的cookie处理、需要代理访问的代理处理
requests：第三方插件，功能更强大

可以使用正则表达式、html.parser、BeautifulSoup、lxml 等实现方式。

本人一般使用 xpath 的方式。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/羊村懒王/article/detail/408890