赞
踩
Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hive将HQL语句转换成MR任务进行执行。
数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反应历史变化(Time Variant)的数据集合,用于支持管理决策。
数据仓库体系结构通常含四个层次:数据源、数据存储和管理、数据服务、数据应用。
Hive是建立在Hadoop之上的数据仓库,由Facebook开发,在某种程度上可以看成是用户编程接口,本身并不存储和处理数据,依赖于HDFS存储数据,依赖MR处理数据。有类SQL语言HiveQL,不完全支持SQL标准,如,不支持更新操作、索引和事务,其子查询和连接操作也存在很多限制。
Hive把HQL语句转换成MR任务后,采用批处理的方式对海量数据进行处理。数据仓库存储的是静态数据,很适合采用MR进行批处理。Hive还提供了一系列对数据进行提取、转换、加载的工具,可以存储、查询和分析存储在HDFS上的数据。
对比项 | Hive | 传统数据库 |
---|---|---|
数据插入 | 支持批量导入,不可单条导入 | 支持单挑和批量导入 |
数据更新 | 不支持 | 支持 |
索引 | 有限索引功能,不像RDBMS有键的概念, 可在某些列上建索引,加速一些查询操作。 创建的索引数据,会被保存在另外的表中 |
支持 |
分区 | 支持,Hive表示分区形式进行组织的,根据 “分区列”的值对表进行粗略划分,加快数 据的查询速度 |
支持,提供分区功能来改善大型表以及具有各 种访问模式的表的可伸缩性、可管理性,以及 提高数据库效率 |
执行延迟 |
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。