赞
踩
在爬取一些网站的数据时,有时候会碰到以下报错:
- requests.exceptions.SSLError: HTTPSConnectionPool(host='martin-audio.com', port=443):
- Max retries exceeded with url: xxx (Caused by SSLError(SSLError("bad handshake: Error
- ([('SSL routines', 'ssl3_get_server_certificate', 'certificate verify failed')],)",),))
如果一时看不出来,百度翻译来凑~~
这个大概的意思就是:请求异常,连接超过最大连接次数,最后是因为证书认证失败。(差不多就是这几个意思~)
知道原因,接下来就开始debug:
首先,给requests.get()传入 verify=False 避免ssl认证。
- import requests
- requests.get(url, verify=False)
设置完,运行一下
嗒嗒嗒,数据都出来了,嗨森~~
不过,向上翻看,发现还有报错??
仔细一看,是一个强烈的建议:
- xxx\site-packages\urllib3\connectionpool.py:1004:
- InsecureRequestWarning: Unverified HTTPS request is being made.
- Adding certificate verification is strongly advised.
- See: https://urllib3.readthedocs.io/en/latest/advanced-usage.html#ssl-warnings
大概意思就是:不安全请求警告:正在发出未验证的HTTPS请求。强烈建议添加证书验证。
关闭这个警告,可以有一下三种方法:
方法1:调用requests中的一个方法关掉警告,代码如下:
requests.packages.urllib3.disable_warnings()
方法2:直接调用urllib3的disable_warnings(),代码如下:
- import urllib3
- urllib3.disable_warnings()
方法3:调用logging的captureWarnings()方法,传入True,关闭提示,代码如下:
- import logging
- logging.captureWarnings(True)
接下来就可以愉快的爬取数据了~~
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。