赞
踩
反爬虫,是指对扫描器中的网络爬虫环节进行反制,通过一些反制策略来阻碍或干扰爬虫的正常爬行,从而间接地起到防御目的。
爬虫的反制策略有很多,总体可归为基于IP的反爬虫和基于爬行的反爬虫两大类。
对于基于IP的反爬虫,主要思路就是通过人为或部分策略来识别出爬虫的IP并进行屏蔽、阻止、封禁等操作。
对基于爬行的反爬虫,其思路主要是在爬虫的爬行中设置爬行障碍,让其陷入死循环;或者用一些无意义的URL来填充其爬行队列,从而阻止其对正常URL进行后续的漏洞审计。
9种常见的反爬虫策略思路
01 封IP
网站运维人员在对日志进行分析时有时会发现同一时间段内某一个或某几个IP访问量特别大,由于爬虫是通过程序来自动化爬取页面信息的,因此其单位时间的请求量较大,且相邻请求时间间隔较为固定,这时就基本可以判断此类行为系爬虫所为,此时即可在服务器上对异常IP进行封锁。
02 封User-Agent
User-Agent是请求头域之一,服务器从User-Agent对应的值中是被客户端的使用信息。
User-Agent的角色就是客户端的身份标识。很多的爬虫请求头就是默认的一些很明显的爬虫头python-requests/2.18.4,诸如此类,当发现携带有这类headers的数据包&#
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。