当前位置:   article > 正文

爬虫研究现状(可自行加删)_爬虫国内外研究现状

爬虫国内外研究现状

知识内容自互联网

2000年诞生网页API和API爬虫2002年10月份,Lycos搜索引擎的访问量高达3700万,成为全世界访问量排名第5的网站。2005-2006年网络抓取软件的可视化。在2018年,众所周知的万维网,或通俗的“互联网”,由超过18亿个网站组成。只需点击几下鼠标,就可以获得如此巨大的数据量。随着越来越多的人上网,每秒产生的数据也越来越多。搜索引擎之间开始出现了分工协作,并有了专业的搜索引擎技术和搜索数据库服务提供商。国外的Inktomi,它本身并不是直接面向用户的搜索引擎,但向包括Overture、LookSmart、MSN、HotBot等在内的其他搜索引擎提供全文网页搜索服务。爬虫技术历经20多年的发展,目前技术已日趋多样。为满足不同用户多种多样的需求,创建开发了类型众多的爬虫系统

在国内近五年来说,大多数爬虫是用后台脚本类语言写的,其中python是用的最多最广的,并且页诞生了很多优秀的库和框架,如scrapy、BeautifulSoup 、pyquery、Mechanize等。但是一般来说,搜索引擎的爬虫对爬虫的效率要求更高,会选用c++、java,详情排名前50的开源Web爬虫用于数据挖掘。对于简单爬虫,瓶颈在于数据分析及提取,而网络效率和语言关系并不大。在近几年nodejs发展非常快, 使得javascript遍地开花,有些人也开始尝试用node做爬虫,这其实和其它后台脚本语言没什么区别,也不如python、php开发效率高、爬虫方面类库多,各方面资源也不如前两者丰富。依旧不能在node里发起ajax请求,不能执行原网页的dom,因为node的javascript执行环境和浏览器的执行环境并不相同,就像如同jvm上的java和谷歌上的java一样。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/149820
推荐阅读
相关标签
  

闽ICP备14008679号