赞
踩
网络爬虫的 wiki 定义如下:
网络爬虫(英语:web crawler),也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人,用来获取万维网上可用的数据。
对于爬虫本身是做什么的,我们都很熟悉,因此这个定义也不言自明。
网络爬虫的经历了五个发展历程
建立索引
1989年互联网诞生之初没有搜索功能。
1993年6月产生了第一个万维网漫游器,可以抓取互联网上的所有网页,测量网页大小,同年12月首个基于爬虫的搜索引擎诞生
2000年网页API和API爬虫
Salesforce 和 eBay 首先推出自己的API供程序员下载数据使用
发送一组HTTP请求,然后接收JSON或XML的回馈,为开发人员提供了一种更友好的网络爬虫方式
2004 年Python Beautiful Soup
Beautiful Soup可以理解站点的结构,并帮助从HTML容器中解析内容。它被认为是用于网络爬虫的最复杂和最先进的库,也是当今常见和流行的方法之一。
网络抓取软件的可视化
为了降低网络爬虫的编码门槛,使更多有数据爬取需求的人能够使用网络爬虫,可视化的网络爬虫软件,它允许用户轻松简单的选择网页内容,并将这些数据构造成可用的excel文件或数据库。
但是可视化软件的功能始终是有限的,当遇到高定制化、个性化的需求的时候,依然需要专门的爬虫工程师来完成。
一个小型的网络爬虫,比如只爬取数个特定页面的爬虫,或许只要一个 py 文件就足以胜任,但是要爬取上百万页面的大型网络爬虫,就需要一定的架构才能更好的完成任务,这样的爬虫基本上框架如下:
这四个部分最终组成一个应用程序。
整个爬虫的架构流程如下所示
URL管理器实现方式介绍:
使用Python自带的urllib2模块或其他下载库
将互联网上URL对应的网页下载到本地的工具,因为将网页下载到本地才能进行后续的分析和处理
类似于网页浏览器,将URL对应的网页下载到本地存储为本地文件或者内存字符串,然后才能进行分析
urllib2模块:
requests:第三方插件,功能更强大
可以使用正则表达式、html.parser、BeautifulSoup、lxml 等实现方式。
本人一般使用 xpath 的方式。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。