赞
踩
一、大数据概述
(一)大数据的定义:大数据的“大”是相对而言的,是指所处理的数据规模巨大到无法通过目前主流数据库软件工具处理,在可以接受的时间内完成抓取、存储、管理和分析,并从中提取出人类可以理解的信息。
(二)大数据的4V特征:
1、volume(数据量大)
2、veriety(数据类型多)
3、velocity(处理速度快)
4、vlue(价值高)
二、大数据存储平台
(一)HDFS:是一款具有高容错性的分布式文件系统,可以部署在造价低廉的主机集群上。
HDFS的设计目标:
1)检测和恢复硬件故障;
2)存储大数据集;
3)应用程序流式地访问HDFS上的数据集;
4)由于大部分MapReduce程序对HDFS上的文件是一次写入、多次读取的,古HDFS只需提供文件的创建、删除、写入、读取功能,不需要提供文件的修改功能,因此也降低了HDFS在数据一致性方面的设计难度;
5)可移植性;
6)让计算随数据的位置而移动。
(二)HBase:HBase可以对大数据进行随机、实时的读取和写入操作。
HBase的特性:
1)线性和模块化的可扩展性;
2)严格的读写一致性;
3)自动且可配置的数据表分片机制;
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。