赞
踩
我们在上一节了解了利用代理可以解决目标网站封 IP 的问题。在网上有大量公开的免费代理,或者我们也可以购买付费的代理 IP,但是代理不论是免费的还是付费的,都不能保证都是可用的,因为可能此 IP 被其他人使用来爬取同样的目标站点而被封禁,或者代理服务器突然发生故障或网络繁忙。一旦我们选用了一个不可用的代理,这势必会影响爬虫的工作效率。
所以,我们需要提前做筛选,将不可用的代理剔除掉,保留可用代理。接下来我们就搭建一个高效易用的代理池。
首先需要成功安装 Redis 数据库并启动服务,另外还需要安装 aiohttp、requests、redis-py、pyquery、Flask 库,可以参考Python爬虫请求库安装#1-CSDN博客
我们需要做到下面的几个目标,来实现易用高效的代理池。
基本模块分为 4 块:存储模块、获取模块、检测模块、接口模块。
存储模块:负责存储抓取下来的代理。首先要保证代理不重复,要标识代理的可用情况,还要动态实时处理每个代理,所以一种比较高效和方便的存储方式就是使用 Redis 的 Sorted Set,即有序集合。
获取模块:需要定时在各大代理网站抓取代理。代理可以是免费公开代理也可以是付费代理,代理的形式都是 IP 加端口,此模块尽量从不同来源获取,尽量抓取高匿代理,抓取成功之后将可用代理保存
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。