赞
踩
知识内容自互联网
2000年诞生网页API和API爬虫。2002年10月份,Lycos搜索引擎的访问量高达3700万,成为全世界访问量排名第5的网站。2005-2006年网络抓取软件的可视化。在2018年,众所周知的万维网,或通俗的“互联网”,由超过18亿个网站组成。只需点击几下鼠标,就可以获得如此巨大的数据量。随着越来越多的人上网,每秒产生的数据也越来越多。搜索引擎之间开始出现了分工协作,并有了专业的搜索引擎技术和搜索数据库服务提供商。国外的Inktomi,它本身并不是直接面向用户的搜索引擎,但向包括Overture、LookSmart、MSN、HotBot等在内的其他搜索引擎提供全文网页搜索服务。爬虫技术历经20多年的发展,目前技术已日趋多样。为满足不同用户多种多样的需求,创建开发了类型众多的爬虫系统。
在国内近五年来说,大多数爬虫是用后台脚本类语言写的,其中python是用的最多最广的,并且页诞生了很多优秀的库和框架,如scrapy、BeautifulSoup 、pyquery、Mechanize等。但是一般来说,搜索引擎的爬虫对爬虫的效率要求更高,会选用c++、java,详情排名前50的开源Web爬虫用于数据挖掘。对于简单爬虫,瓶颈在于数据分析及提取,而网络效率和语言关系并不大。在近几年nodejs发展非常快, 使得javascript遍地开花,有些人也开始尝试用node做爬虫,这其实和其它后台脚本语言没什么区别,也不如python、php开发效率高、爬虫方面类库多,各方面资源也不如前两者丰富。依旧不能在node里发起ajax请求,不能执行原网页的dom,因为node的javascript执行环境和浏览器的执行环境并不相同,就像如同jvm上的java和谷歌上的java一样。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。