赞
踩
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 [1] 中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。 [2]
麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
大数据的百度百科地址:
在过去的十几年时间里,随着web2.0、web3.0 、移动互联网的兴起与发展,与之对应的制造数据越来越多、越来越庞大,人们创造数据的速度来越来越快,大数据时代到来,各行各业里的数据也越来越庞大,从GB级到TB级,再到PB级,增长的类型越来越快,数据的多样性也越来越复杂,随着云计算的普及,数据越来越集中在云端的服务器,各大企业和zf部门也在收集更多的数据,从海量的数据中挖掘有价值的信息,这一点百度百科中应用和价值中体现的淋漓尽致。
马云曾说:“21世纪核心的竞争是数据的竞争”,“谁拥有更多的数据,谁就拥有未来”。
随着数据量不断的增加,到了PB级别,数据的存储和运行都会非常的困难,传统的模式往往存在很多的瓶颈,包括:存储容量、读写速率、计算效率等方面,无法满足用户和企业的需求,未了解决这些问题,谷歌(Google)提出了三项技术来解决大数据存储和计算,分别是MapReduce、BigTable、GFS。这三项革命性的技术,1.降低了成本,能用pc机,就不用大型机和高端存储;2.软件容错硬件故障视为常态,通过软件保证可靠性;3.简化并行分布式计算,无须控制节点同步和数据交换。但是,谷歌只发表相关技术论文,并没有开放源代码。一个模仿谷歌大数据技术的开源应运而生,Hadoop。
所以在it方面,有人称,大数据是在以Hadoop为代表的大数据平台框架上进行各种数据分析的技术。
大数据包括了以Hadoop和 Spark 为代表的基础大数据框架
还包括实时数据处理,离线数据处理,数据分析,数据挖掘和用机器算法进行预测分析等技术
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。