赞
踩
维基百科对于大数据给出了一个定性的描述:大数据是指无法使用传统和常用的软件技术和工具在一定时间内完成获取、管理和处理的数据集。
从技术特点来看,大数据满足5V模型:
大体量(Volume)、多样性(Variety)、时效性(Velocity)、准确性(Veracity)、大价值(Value)。
1.从数据结构特征角度:大数据可分为结构化数据(表格)、非结构化数据(图片)/半结构化数据。
2.从数据获取处理的角度来看:大数据可分为批处理计算方式以及流式计算方式。
3.从数据处理角度看:大数据处理可分为传统的查询分析计算以及复杂的数据挖掘计算。
4.从大数据的处理相应性能看:大数据处理实时/准实时计算与非实时计算。或者是联机计算与线下计算。
5.从数据关系角度看:大数据可分为简单数据(Web日志)和复杂关系数据(社会网络)。
6.从迭代角度看,现实世界中计算大多需要大量的迭代计算。
7.从并行计算体系结构特征角度看,需要支持大规模数据的存储和计算。
或者说,我们研究大数据,主要是为了应对数据量指数增长后出现的哪些问题?
1.数据存储:TB级别、PB级别的数据该存在哪里?该如何存储才能保证安全?单机必然无法存储如此庞大的数据。一般都是采用分布式存储的方式。
2.数据运算:单单存储下来的数据是没有任何意义的,如何利用这些数据才是我们存储数据的原因。但是已经无法正常存储的数据如何才能正常使用呢?目前来说,谷歌提出的MapReduce计算框架是处理大数据的最有力的工具。
1.寻找新算法降低计算复杂度。
2.寻找或采用降低数据尺度的算法。
3.分而治之的并行化处理方法。
寻找新算法显然是极难的。目前机器学习行业主流的算法都是过去几十年甚至上百年提出的算法。而降低尺度的方法显得有些滑稽,我们采用大数据就是因为大数据描述问题的准确性,降低数据尺度,将大数据变为“小”数据同样也降低了数据精度和价值。为此,我们希望有一种新的对大数据的处理方法,而MapReduce则是其中的佼佼者。
1.MapReduce是一个基于集群的高性能并行计算平台。它可以利用市场上的普通的商用服务器构成一个包含数十、数百甚至上千结点的分布和并行计算集群。
2.MapReduce是一个并行计算与软件运行框架。
3.MapReduce是一个并行程序设计模型与方法。
[1]《深入理解大数据》黄宜华,苗凯翔. 机械工业出版社
[2] 实战案例玩转Hadoop系列2 --大数据及Hadoop简介 网页地址
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。