爬虫系统有5个组件构成:
Spider 爬虫整体控制
下载器
网页处理器
处理管线
调度器
整个流程,向调度器加入初始请求-》下载器下载对应网页-》分析器,获取网页上的链接,以及网页内容-》处理管线将分析到的有效内容保存下来
赞
踩
爬虫系统有5个组件构成:
Spider 爬虫整体控制
下载器
网页处理器
处理管线
调度器
整个流程,向调度器加入初始请求-》下载器下载对应网页-》分析器,获取网页上的链接,以及网页内容-》处理管线将分析到的有效内容保存下来
转载于:https://my.oschina.net/u/186074/blog/3025936
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。