赞
踩
经常听到这些大数据的名词, Hadoop,HDFS,Hbase,Hive等,这次就一探究竟。
大数据是以Hadoop为代表的大数据平台框架上进行各种数据采集,数据整理,数据分析的技术,Hadoop只是一个框架。
Hadoop 生态图:
可以通过shell或者pytohn操作HDFS,进行文件的存储到HDFS,并下载。
Hadoop提供最基本的MapReduce计算模型。
所以,Hadoop其实是一个生态,最主要的是存储HDFS+计算MapReduce,Hadoop本身的计算比较鸡肋,所以有了Spark计算引擎。
数据仓库是将多个数据源的数据经过ETL处理后,按照一定的主题集成起来提供决策支持和联动分析应用的结构化数据环境。
ETL: Extract + Tranform + Load
导入数据时,将数据移动到hive指定的目录文件中,删除表时,数据也会删除;
建表:
CREATE TABLE table1 (
id int,
name string,
interest array<string>,
score map<string,string>
)
row format delimited fields terminated by ',' --列分割
collection items terminated by '-' --array分割
map keys terminated by ':' --map分割
stored AS textfile; --保存
import data:
load data local inpath '/opt/data/test' overwrite into table table1;
建表时添加关键字external,并指定位置,删除表时不会删除源数据
create external table table2(
id int,name string,interest array<string>,
score map<string,string>)
row format delimited fields terminated by ','
collection items terminated by '-'
map keys terminated by ':' location '/testtable';
desc formatted table2;
Hive可以通过partition,bucket对海量数据进行区分。
名字看上去是很相似的,其实他们本质上是不一样的,一个是数据仓库,一个是数据库。
Hbase和Hive在大数据架构中处在不同位置,Hbase主要解决实时数据查询问题,Hive主要解决数据处理和计算问题,一般是配合使用。
在大数据架构中,Hive和HBase是协作关系,数据流一般:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。