IT小白

这个屌丝很懒，什么也没留下！

热门标签

热门文章

当前位置: article > 正文

scrapy分布式爬虫_scrapy 分布式爬虫

作者：IT小白 | 2024-03-08 02:12:11

赞

踩

scrapy 分布式爬虫

分布式爬虫：概念介绍

需求：目标网站有 2w 个url，请求并处理这些 2w 个响应数据，然后入库

方案一：单服务器爬虫

一个爬虫，负责2w个url，0.1*20000=2000秒

方案二：分布式爬虫，协同

100个爬虫，一个爬虫负责200个url，0.1*200=20秒
100个爬虫，同时工作

误区：多个单服务器爬虫 != 分布式爬虫

单服务器爬虫，它包含自己的工作量和自己的工人
分布式爬虫，统一的工作量+可分配数量的工人

分布式爬虫的工作原理：

分布式爬虫，只包含处理响应的函数部分，不包括目标网站的url 目标网站的url，在数据库中，分布式爬虫负责从这里取url并自行请求和处理数据多个分布式爬虫，只需要多次启动该分布式爬虫即可。就可以做到
多个爬虫，同时请求数据库并获取url，然后自行处理url和响应

分布式爬虫：环境安装

1. scrapy安装步骤：这个阶段，scrapy环境必须是完整的，安装过程略

2. python3安装scrapy-redis库

$ pip3 install scrapy-redis

3. 安装 Redis 数据库

windows：

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/IT小白/article/detail/208659

推荐阅读

相关标签

Copyright © 2003-2013 www.wpsshop.cn 版权所有，并保留所有权利。

闽ICP备14008679号