当前位置:   article > 正文

Python爬虫——怎么搭建和维护一个本地IP池

ip池

目录

背景

一、什么是本地代理IP池

二、代理IP池功能架构图

三、各个组件功能说明及示例代码

1. IP池管理器

2. 代理IP获取器

3. IP质量检测器

4、数据存储器

5、API接口层

6、应用程序

总结


背景

在我们进行爬虫工作时,经常需要使用代理IP。大多数代理IP服务商为了保障服务器的持久稳定性,提供的代理IP往往都有最小提取间隔限制,虽然很合理,但有些特殊要求需要0间隔提取代理IP的业务就无法使用,那么建立本地IP池,可以很好的实现0间隔提取代理IP。

 

一、什么是本地代理IP池

代理IP池是一种由多个代理IP构成的集合,可以通过接口等方式随时获取可用的代理IP通俗地打个比方,它就是一个池子,里面装了很多代理ip。代理IP具有以下几个特征:

      1、池子里的ip是有生存周期的,它们将被定期验证,其中失效的将被剔除。

      2、池子里的ip是有补充渠道的,不断会有新的代理ip加入其中。

      3、池子中的代理ip是可以被随机取出来使用的。

这样,代理池中始终有多个不断更换的、有效的代理ip,且我们可以无间隔随机从池子中取出代理ip,然后让爬虫程序使用代理ip访问目标网站,解决在爬虫或其他应用中遇到的封禁、限制等问题。

二、代理IP池功能架构图

自建代理IP池的功能架构图包括以下组件:

  1. IP池管理器:用于管理IP池,包括IP地址的添加、删除、查询和更新等操作。

  2. 代理IP获取器:用于从外部资源中获取代理IP,例如从公开代理IP网站上爬取代理IP、从代理服务商订购代理IP等。

  3. IP质量检测器:用于检测代理IP的质量,包括代理IP的连接速度、稳定性、匿名性等特征。

  4. 数据存储器:用于存储IP池和代理IP的数据,例如使用MySQL等关系型数据库、Redis等非关系型数据库等。

  5. API接口层:用于接收来自应用程序的请求,调用IP池管理器、代理IP获取器、IP质量检测器和数据存储器等组件进行处理,并返回相应的数据结果。

  6. 应用程序:用于调用API接口层,实现代理IP的使用、监控和管理等功能。

 

三、各个组件功能说明及示例代码

1. IP池管理器

IP池管理器的作用是管理IP池,它可以实现以下功能:

- 添加新的IP地址到IP池中;
- 删除不需要的IP地址;
- 查询IP池中的可用IP地址;
- 更新IP池中的IP地址信息。

这里以Python语言举例,实现一个简单的IP池管理器:

  1. class IPPoolManager:
  2.     def __init__(self, db):
  3.         self.db = db  # 数据库连接
  4.     def add_ip(self, ip, port, protocol='http', source='', status='new'):
  5.         ''' 添加新的IP地址到IP池 '''
  6.         cursor = self.db.cursor()
  7.         sql = "INSERT INTO ip_pool(ip, port, protocol, source, status) VALUES(%s, %s, %s, %s, %s)"
  8.         data = (ip, port, protocol, source, status)
  9.         cursor.execute(sql, data)
  10.         self.db.commit()
  11.         return cursor.lastrowid  # 返回添加记录的ID
  12.     def delete_ip(self, ip_id):
  13.         ''' 从IP池中删除不需要的IP地址 '''
  14.         cursor = self.db.cursor()
  15.         sql = "DELETE FROM ip_pool WHERE id=%s"
  16.         cursor.execute(sql, (ip_id,))
  17.         self.db.commit()
  18.     def get_ip(self, status='new'):
  19.         ''' 查询IP池中的可用IP地址 '''
  20.         cursor = self.db.cursor()
  21.         sql = "SELECT * FROM ip_pool WHERE status=%s ORDER BY id DESC LIMIT 1"
  22.         cursor.execute(sql, (status,))
  23.         result = cursor.fetchone()
  24.         return result
  25.     def update_status(self, ip_id, status):
  26.         ''' 更新IP池中的IP地址信息 '''
  27.         cursor = self.db.cursor()
  28.         sql = "UPDATE ip_pool SET status=%s WHERE id=%s"
  29.         cursor.execute(sql, (status, ip_id))
  30.         self.db.commit()

2. 代理IP获取器

 负责定时(最小提取间隔)从代理IP服务商那里调用API接口获取代理IP。当然也可以爬取免费代理IP,但为了提高工作效率,建议购买优质代理IP,这里使用了站大爷代理IP(https://www.zdaye.com)。注册后可以免费试用所有的套餐2小时,生成API接口后,就可以提取到代理IP。

这里以站大爷代理IP接口为例,实现一个简单的代理IP获取器(需要使用requests库):

  1. import requests
  2. def get_ip():
  3. url = "https://www.zdaye.com" //在后台的实例管理里面可以直接生成api接口,选择JSON格式
  4. res = requests.get(url)
  5. # print(res.text)
  6. for i in json.loads(res.text)["data"]:
  7. print(i, type(i))
  8. ip = {
  9. "http": str(i["ip"]) + ":" + str(i["port"]),
  10. "https": str(i["ip"]) + ":" + str(i["port"])
  11. }
  12. return ip

注意:我们拿到的代理是 {"ip":"117.57.91.154","port":40021} 这种样子的;

爬虫使用的代理要装成:{'http': '163.125.104.6:40011', 'https': '163.125.104.6:40011'}这种样子。

3. IP质量检测器

IP质量检测器的作用是检测代理IP的质量,包括代理IP的连接速度、稳定性、匿名性等特征。这里以验证代理IP的可用性为例,实现一个简单的IP质量检测器。

  1. import requests
  2. class IPChecker:
  3.     def __init__(self):
  4.         self.timeout = 5  # 设置超时时间
  5.         self.headers = {
  6.             'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36'}
  7.     def check_ip(self, ip, port):
  8.         ''' 验证代理IP的可用性 '''
  9.         proxies = {'http': 'http://%s:%s' % (ip, port), 'https': 'https://%s:%s' % (ip, port)}
  10.         try:
  11.             response = requests.get('http://www.baidu.com', headers=self.headers, proxies=proxies, timeout=self.timeout)
  12.             if response.status_code == 200:
  13.                 return True
  14.             else:
  15.                 return False
  16.         except:
  17.             return False

上面的代码使用requests库发送HTTP请求,通过设置proxies参数和timeout参数来验证代理IP是否可用,如果能正常访问百度网站,则验证通过返回True,否则返回False。

4、数据存储器

数据存储器的作用是存储IP池和代理IP的数据,例如使用MySQL等关系型数据库、Redis等非关系型数据库等。这里以MySQL为例,实现一个简单的数据存储器。

  1. import pymysql
  2. class MySQLDataStorage:
  3.     def __init__(self, host, port, user, password, database):
  4.         self.host = host
  5.         self.port = port
  6.         self.user = user
  7.         self.password = password
  8.         self.database = database
  9.     def connect(self):
  10.         ''' 连接数据库 '''
  11.         self.db = pymysql.connect(host=self.host, port=self.port, user=self.user, password=self.password, database=self.database)
  12.     def disconnect(self):
  13.         ''' 断开数据库连接 '''
  14.         self.db.close()
  15.     def create_table(self):
  16.         ''' 创建IP池表 '''
  17.         cursor = self.db.cursor()
  18.         sql = '''
  19.         CREATE TABLE IF NOT EXISTS ip_pool (
  20.             id INT(11) NOT NULL AUTO_INCREMENT,
  21.             ip VARCHAR(50) NOT NULL,
  22.             port VARCHAR(10) NOT NULL,
  23.             protocol VARCHAR(10) NOT NULL,
  24.             source VARCHAR(50) NOT NULL,
  25.             status VARCHAR(10) NOT NULL,
  26.             created_time TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP,
  27.             PRIMARY KEY (id)
  28.         ) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci;
  29.         '''
  30.         cursor.execute(sql)
  31.         self.db.commit()
  32.     def insert(self, ip, port, protocol, source, status):
  33.         ''' 添加新的IP地址到IP池 '''
  34.         cursor = self.db.cursor()
  35.         sql = "INSERT INTO ip_pool(ip, port, protocol, source, status) VALUES(%s, %s, %s, %s, %s)"
  36.         data = (ip, port, protocol, source, status)
  37.         cursor.execute(sql, data)
  38.         self.db.commit()
  39.         return cursor.lastrowid  # 返回添加记录的ID
  40.     def delete(self, ip_id):
  41.         ''' 从IP池中删除不需要的IP地址 '''
  42.         cursor = self.db.cursor()
  43.         sql = "DELETE FROM ip_pool WHERE id=%s"
  44.         cursor.execute(sql, (ip_id,))
  45.         self.db.commit()
  46.     def select(self, status='new'):
  47.         ''' 查询IP池中的可用IP地址 '''
  48.         cursor = self.db.cursor()
  49.         sql = "SELECT * FROM ip_pool WHERE status=%s ORDER BY id DESC LIMIT 1"
  50.         cursor.execute(sql, (status,))
  51.         result = cursor.fetchone()
  52.         return result
  53.     def update(self, ip_id, status):
  54.         ''' 更新IP池中的IP地址信息 '''
  55.         cursor = self.db.cursor()
  56.         sql = "UPDATE ip_pool SET status=%s WHERE id=%s"
  57.         cursor.execute(sql, (status, ip_id))
  58.         self.db.commit()

上面的代码封装了MySQL的连接、断开连接、创建表、增删改查等操作,可以通过调用接口实现IP池数据库的交互。注意,这里使用了execute()函数的带参数方式来防止SQL注入攻击。

5、API接口层

API接口层的作用是提供API接口,让其他程序可以与IP池系统进行交互,例如查询可用代理IP、获取新的代理IP等。这里以Python Flask框架为例,实现一个简单的API接口层。```

  1. from flask import Flask, jsonify
  2. from ip_pool_manager import IPPoolManager
  3. app = Flask(__name__)
  4. manager = IPPoolManager()  # 初始化IP池管理器
  5. @app.route('/')
  6. def hello_world():
  7.     return 'Hello, World!'
  8. @app.route('/get')
  9. def get_proxy():
  10.     ''' 查询可用代理IP '''
  11.     result = manager.get_ip()
  12.     if result:
  13.         ip = result['ip']
  14.         port = result['port']
  15.         protocol = result['protocol']
  16.         manager.update_status(result['id'], 'using')  # 更新IP状态为使用中
  17.         return jsonify({'ip': ip, 'port': port, 'protocol': protocol})
  18.     else:
  19.         # 如果没有可用IP,则返回空
  20.         return ''
  21. @app.route('/add/<ip>/<port>')
  22. def add_proxy(ip, port):
  23.     ''' 添加新的代理IP '''
  24.     manager.add_ip(ip, port)
  25.     return 'ok'
  26. @app.route('/delete/<int:id>')
  27. def delete_proxy(id):
  28.     ''' 删除不需要的代理IP '''
  29.     manager.delete_ip(id)
  30.     return 'ok'
  31. if __name__ == '__main__':
  32.     app.run()

上面的代码使用了Flask框架实现了三个接口:

- /get:查询可用代理IP;
- /add:添加新的代理IP;
- /delete:删除不需要的代理IP。

其中,get_proxy()函数从IP池管理器中获取可用代理IP,并更新IP状态为使用中,返回JSON格式的数据;add_proxy()函数向IP池管理器中添加新的代理IP;delete_proxy()函数从IP池管理器中删除不需要的代理IP。启动Flask应用程序后,其他程序可以通过HTTP请求调用这些接口与IP池系统进行交互。

6、应用程序

以下是一个简单的应用程序示例。它使用IP池系统提供的可用代理IP,并使用requests库实现了一个简单的爬虫示例。

  1. import requests
  2. from bs4 import BeautifulSoup
  3. from ip_checker import IPChecker
  4. from ip_pool_manager import IPPoolManager
  5. import time
  6. def main():
  7.     checker = IPChecker()
  8.     manager = IPPoolManager()
  9.     while True:
  10.         ip_info = manager.get_ip()  # 获取可用代理IP
  11.         if ip_info:
  12.             ip = ip_info.get('ip')
  13.             port = ip_info.get('port')
  14.             protocol = ip_info.get('protocol')
  15.             if checker.check_ip(ip, port):
  16.                 print(f'使用代理IP {ip}:{port} 获取数据')
  17.                 proxies = {'http': f'{protocol}://{ip}:{port}', 'https': f'{protocol}://{ip}:{port}'}
  18.                 response = requests.get('http://www.baidu.com', proxies=proxies)
  19.                 # 这里可以根据需要解析返回的数据
  20.                 soup = BeautifulSoup(response.text, 'html.parser')
  21.                 print(soup.title.string)
  22.                 time.sleep(5)  # 延迟5秒后继续获取
  23.             else:
  24.                 # 如果代理IP不可用,则将其状态设置为失效
  25.                 manager.update_status(ip_info['id'], 'invalid')
  26.         else:
  27.             # 如果没有可用代理IP,则等待一段时间后再尝试获取
  28.             time.sleep(60)
  29. if __name__ == '__main__':
  30.     main()

以上代码的主函数中使用IP池系统提供的可用代理IP,使用requests库发送HTTP请求,获取返回的数据。如果返回的数据解析成功,控制台输出网站的标题,然后等待5秒后继续获取。如果代理IP不可用或者IP池中没有可用的IP,程序会等待一段时间后再尝试获取。

总结

有了本地IP池,可以更加方便的管理和使用代理IP,不仅可以0间隔提取代理IP,还能提高爬虫的工作效率。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/71809?site
推荐阅读
相关标签
  

闽ICP备14008679号