赞
踩
在编写爬虫爬取数据的时候,因为很多网站都有反爬虫措施,所以很容易被封IP,就不能继续爬了。在爬取大数据量的数据时更是瑟瑟发抖,时刻担心着下一秒IP可能就被封了。
本文就如何解决这个问题总结出一些应对措施,这些措施可以单独使用,也可以同时使用,效果更好。
在请求头中把User-Agent
设置成浏览器中的User-Agent
,来伪造浏览器访问。比如:
headers = {
'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'}
resp = requests.get(url,headers = headers)
还可以先收集多种浏览器的User-Agent
,每次发起请求时随机从中选一个使用,可以进一步提高安全性:
In [7]: import requests,random
In [8]: user_agents = [
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。