赞
踩
目录
前言
通用爬虫框架
五类界面分类
爬虫的种类分类
优秀爬虫的特性
抓取标准
抓取策略
宽度优先策略
非完全PageRank策略(争议很大,未必比宽度优先好.故而了解即可)
OCIP策略(Online Page Importance Computation)
大站优先策略
网页更新策略
历史参考策略
用户体验策略
聚类抽样策略
暗网抓取
查询组合问题