赞
踩
人类的行为及产生的事件的一种记录称之为数据
狭义上:大数据是一类技术栈,是一种用来处理海量数据的软件技术体系。
广义上:大数据是数字化时代、信息化时代的基础(技术)支撑,以数据为生活赋能。
大数据有5个主要特征,称之为:5V特性
Volume 体积-数据体量大
Variety 种类-种类、来源多样化
Value 价值-低价值密度
Velocity 速度-速度快
Veracity 质量-数据的质量
大数据的核心工作其实就是:从海量的高增长、多类别、低信息密度的数据中挖掘出高质量的结果
数据存储 可以妥善存储海量待处理数据
数据计算 可以从海量数据中计算出背后的价值
数据传输 协助在各个环节中完成海量数据的传输
Hadoop是Apache软件基金会下的顶级开源项目,用以提供:
为一体的整体解决方案。
Apache Hadoop是典型的分布式软件框架,可以部署在1台乃至成千上万台服务器节点上协同工作。
个人或企业可以借助Hadoop构建大规模服务器集群,完成海量数据的存储和计算。
通常意义上,Hadoop是一个整体,其内部还会细分为三个功能组件,分别是:
HDFS组件
MapReduce组件
YARN组件
Apache开源社区版本
http://hadoop.apache.org/
商业发行版本
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。