赞
踩
1 选题的目的和意义
互联网时代,电子支付的兴起,使得网购越来越简单。但是随着信息大爆炸,我们面临便是如何在互联网上的海量数据中,快速准确的找到我们所需要的商品这一重要的问题。
网络爬虫技术是根据既定的抓取目标,有选择的访问互联网上的网页与相关的链接,获取所需要的网络信息,对其进行相应的处理与保存,建立信息索引,这样大幅度提高了获取信息的效率和质量。
然而,网络爬虫仍然面临着很大的问题,比如网页链接之间复杂的关系,需要进行高密度的计算,以及如何存储在爬取信息的过程中产生的海量数据,存储这些信息需要大量的存储容量。
云计算平台的出现,解决了这些问题。云计算平台也称为云平台,是指基于硬件资源和软件资源的服务,提供计算、网络和存储能力。云平台通过网络“云”将巨大的数据计算处理程序分解成无数个小程序,通过多部服务器组成的系统进行处理和分析这些小程序得到结果并返回给用户。
本次所研究和实现的基于云平台的网络爬虫,是针对现有的网络爬虫对信息爬取效率的不足,以及结合相关云计算技术而设计的。本文通过虚拟化技术对数据中心的IT基础设施资源(服务器、存储、网络设备、应用等)进行池化,并对其进行有效的管理、分配和运用,提高了数据计算的效率,降低了数据存储的成本,方便用户更简单快捷的找到自己所需要的商品。基于此,提出了“网络爬虫在云平台上的应用与实现”这一设计题目。
2 国内外研究现状
作为搜索引擎技术核心元素之一,自1993年初 Matthew Gray’s Wandered 在麻省理工学院开发出有史记载的第一个网络爬虫以来,爬虫技术历经20多年的发展,技术已日趋多样。为满足不同用户多种多样的需求,创建开发了类
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。