赞
踩
大物移云:大数据,物联网,移动互联,云计算
图灵奖(计算机最高奖项)杰姆·格雷(Jim Gray)曾提出著名的"新摩尔定律”:每18个月全球新增信息量是计算机有史以来全部信息量的总和。时至今日,所累积的数据量之大,已经无法用传统方法处理,因而使“大数据”这个词备受万众瞩目。
而处理"大数据”的技术手段- "云计算”,很早就被人们所熟知了。
换算率等于1024,例:1K=1024B
1B(byte,字节)
1KB
1MB
1GB
1TB
1PB
1EB
1ZB
1YB
…
历史上,数据基本是通过手工产生的。随着人类步入信息社会,数据产生越来越自动化。比如在精细农业中,需要采集植物生长环境的温度、湿度、病虫害信息,对植物的生长进行精细的控制。因此我们在植物的生长环境中安装各种的传感器,自动地收集我们需要的信息。对环境的感知,是一种抽样的手段,抽样密度越高,越逼真真实情形。如今,人类不再满足于得到部分信息,而是倾向于收集对象的全部信息,即将我们周围的一切数据化。因为有些数据如果丢失了哪怕很小的一部分,都有可能得出错误的结论,比如通过分析人的基因组判断某人可能患有某种疾病,即使丢失一小块基因片段,都有可能导致错误的结果。为了达到这个目的,传感器的使用暴增。目前全球有30亿-50亿个传感器,到2020年将达到1000亿个之多。这些传感器24小时都在产生数据,这就导致了信息爆炸。
全球已经有大约30亿人连入互联网。在Web2.0时代,每个人不仅是信息的接收者,同时也是信息的产生者,每个人都成为数据源,每个人都在用智能终端拍照、拍录像、发微博、发微信等。全球每天会有2.88万小时的视频上传到YouTube, 会有5000万条信息上传到Twitter, 会在亚马逊产生630万笔订单…
例如,在物理学领域,欧洲粒子物理研究所的大型强子对撞机,每秒产生的原始数据量高达40TB。在天文学领域,2000年斯隆数字巡天项目启动时位于墨西哥州的望远镜在短短几周内收集到的数据比天文学历史上的总和还要多。
例如,石油部门用地震勘探的方法来探测地质构造、寻找石油,使用了大量传感器来采集地震波形数据。高铁的运行要保障安全,需要在每一段铁轨周边大量部署传感器,从而感知异物、滑坡、水淹、变形、地震等异常。目前一个普通城市的摄像头往往就有几十万个之多,每分每秒都在产生极其海量的数据。
海量数据或巨量数据,其规模巨大到无法通过目定前主流的计算机系统在合理时间内获取、存储、管理、处理并提炼以帮助使用者决策。
在成本可接受的条件下,通过快速采集、发现和分析,从大量、多种类别的数据中提取价值的体系架构。
存储的数据量巨大,PB级别是常态,因而对其分析的计算量也大。
数据增长速度快,而且越新的数据价值越大,这就要求对数据的处理速度也要快,以便能够从数据中及时地提取知识,发现价值。
数据的来源及格式多样,数据格式除了传统的结构化数据外,还包括半结构化或非结构化数据,比如用户上传的音频和视频内容。而随着人类活动的进一步拓宽,数据的来源更加多样。
对数据的处理和分析的难度大。
在中国大数据专家委员会成立大会上,委员会主任怀进鹏院士用一个公式描述了大数据与云计算的关系:
G
=
f
(
x
)
G=f(x)
G=f(x)
其中,G,我们的目标;f,云计算;x,大数据。
云计算是处理大数据的手段,大数据与云计算是一枚硬币的正反面。
大数据是需求,云计算是手段。没有大数据,就不需要云计算。没有云计算,就无法处理大数据。
云计算是一种商业计算模型。它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。
云计算是通过网络按需提供可动态伸缩的廉价计算服务。
云是一些可以自我维护和管理的虚拟计算资源, 通常是一-些大型服务器集群, 包括计算服务器、存储服务器和宽带资源等。
云计算将计算资源集中起来,并通过专门软件实现自动管理,无须人为参与。用户可以动态申请部分资源,支持各种应用程序的运转,无须为繁琐的细节而烦恼,能够更加专注于自己的业务,有利于提高效率、降低成本和技术创新。
之所以称为“云”,是因为它在某些方面具有现实中云的特征:
云一般都较大;
云的规模可以动态伸缩,它的边界是模糊的;
云在空中飘忽不定,无法也无须确定它的具体位置,但它确实存在于某处。
云计算是并行计算、分布式计算和网格计算的发展,或者说是这些计算科学概念的商业实现。
云计算是虚拟化、效用计算、将基础设施作为服务、将平台作为服务和将软件作为服务等概念混合演进并跃升的结果。
注:Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。
阿里巴巴已经在北京、杭州、青岛、香港、深圳、硅谷等拥有云计算数据中心,并正在德国、新加坡和日本建设数据中心。
阿里云提供云服务ECS、关系型数据库服务RDS、开放存储服务OSS、内容分发网络CDN等产品服务。
其用户规模已经超过140万,处于全球领先的位置,并开始在欧美市场与亚马逊等正面竞争。
均衡使用云资源节点,检测节点故障并试图恢复或屏蔽之,并对资源的使用情况进行监视统计。
检测节点故障执行用户或应用提交的任务,包括完成用户任务映象(lmage) 的部署和管理、任务调度、任务执行、任务生命期管理等。
实现云计算商业模式的一个必不可少的环节,包括提供用户交互接口、管理和识别用户身份、创建用户程序的执行环境、对用户的使用进行计费等。
保障云计算设施的整体安全,包括身份认证、访问授权、综合防护和安全审计等。
主要原因在于它的技术特征和规模效应所带来的压倒性的性能价格比优势。
全球企业的IT开销分为三部分:硬件开销、能耗和管理成本。根据IDC在2007年做过的一个调查和预测,从1996年到2010年, 全球企业IT开销中的硬件开销是基本持平的,但能耗和管理的成本上升非常迅速,以至于到2010年管理成本占了IT开销的大部分,而能耗开销越来越接近硬件开销了。
因而,对于规模通常达到几十万乃至上百万台计算机的亚马逊和谷歌云计算而言,其网络、存储和管理成本比中型数据中心至少可以降低5-7倍。
美国爱达荷州的水电资源丰富,电很便宜。夏威夷是岛屿,本地没电力资源,电力价格比较贵。
谷歌的数据中心一般选择在人烟稀少,气候寒冷、水资源丰富的地区,这些地点的电价、散热成本、场地成本、人力成本都远远低于人烟稠密的大都市。
注:“信息时代核电站”-Google数据中心:数据中心采用了高度自动化的云计算软件来管理,需要的人员很少,而为了技术保密而拒绝外人进入参观,让人有一种神秘的感觉。
云计算与传统互联网数据中心IDC相比,资源的利用率也有很大的不同。IDC一般采用服务器托管和虚拟主机等方式对网站提供服务。每个租用IDC的网站所获得的网络宽带、处理能力和存储空间都是固定的。然而,绝大多数网站的访问流量都不是均衡的。
云计算将计算变成了大众用得上和用得起的“水和电”
对云计算用户而言,云计算的优势也是无与伦比的。他们不用开发软件,不用安装硬件,用低得多得使用成本,就可以快速部署应用系统,而且可以动态伸缩系统的规模,可以更容易地共享数据。租用公共云的企业不再需要自建数据中心,只需申请账号并按量付费,这一点对于中小企业和刚起步的创业公司尤为重要。
目前,云计算的应用领域涵盖应用托管、存储备份、内容推送、 电子商务、高性能计算、媒体服务、搜索引|擎、 Web托管等多个领域,代表性的云计算应用企业包括Abaca、BelnSync、 AF83、Giveness、 纽约时报、华盛顿邮报、GigaVox、 SmugMugAlexa、Digitaria等。
纽约时报使用亚马逊云计算服务在不到24小时的时间里处理了1100万篇文章,累计花费仅240美元。如果用自己的服务器,需要数月时间和多得多的费用。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。