赞
踩
思想是代码的灵魂,一个开发人员总是需要或多或少掌握一些算法的,特别是在网络安全领域。
例如,在实现web应用扫描器的时候,我们需要实现一个web2.0的整站爬虫,就需要用到优先级广度优先搜索算法来调用爬虫对页面的抓取过程,同时也需要页面结构相似度比较算法来去除相似结构的页面和利用布隆过滤器对爬过的链接进行去重过滤。
下面,我就简单描述一下这几个算法
以下面的页面为例
现目前分别有hyTest和chaojilajiTest这两个子页面,http://47.101.39.152/knowledge/network?id=1 和 http://47.101.39.152/knowledge/network?id=2
如果不进行页面相似度分析的话,普通爬虫就会对这两个页面进行抓取和解析,那么就会造成资源的浪费。
那么首先,我们需要对url的结构进行分析,对http协议的url进行拆解,可以拆解为
http(s)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。