当前位置:   article > 正文

Hive测试_数据量较小的实时处理建议采用impara,而大数据量的实时处理建议采用hive。

数据量较小的实时处理建议采用impara,而大数据量的实时处理建议采用hive。
1、数据仓库的体系结构包含四个层次,分别是:
数据源
数据存储和管理
数据服务
数据应用

2、Hive提供了类似关系数据库SQL的查询语言:
HiveQL

3、Hive某种程度上可以看作 用户编程接口,本身不存储和处理数据,存储数据依赖 HDFS,
处理数据依赖 MapReduce或Tez或Spark
4、HBase一个 面向列的、分布式的、可压缩的数据库,它可以提供数据的 实时访问功能,而Hive只能处理 静态数据所以HBase.与Hive的功能是互补的,它实现了Hive不能提供功能。
5、Hive系统架构包括三个模块:
用户结构模块
驱动模块
元数据存储模块

6、在实际应用中,Hive暴露出不稳定的问题, Hive HA的出现就是为了解决这类问题,它由多个Hive实例进行管理,这些实例被纳入一个资源池,由 HAProxy提供统一的对外接口
7、Hive采用 MapReduce完成批量化的数据处理,因此实时性不好,查询延迟较高, Impala作为开源大数据分析引擎,支持 实时计算,提供了与Hive类似的功能,但性能更高。

8、Hive和Impara都提供了SQL语义,但由于Hive底层执行需要 MapReduce,不能满足实时交互查询。
9、Impara采用了与商用MPP并行关系数据库类似的分布式查询引擎,可以直接从 HDFS或Hbase中用SQL查询,不需要转换为MapReduce进行执行,大大降低了延迟。但Impara不能完全替代Hive,其运行仍然需要依赖: Hive的元数据,Hive和Impara采用相同的: SQL语法、ODBS驱动程序、用户接口
10、HiveQL语句延迟要比传统数据库SQL语句延迟高。√

11、Hive和Impara?功能类似,都可以用于实时交互式SQL查询。X

12、尽管mpara目前理查询时会受到一定限制,但仍适用于大数据量的批量处理。X
13、数据量较小的实时处理建议采用Impara,而大数据量的实时处理建议采用Hive。√

l4、Hive与Impala使用相同的存储数据池,都支持把数据存储于HDFS和IBase中。√

l5、Hive与Impala使用相同的元数据。√
  16 、请给出数据仓库的概念。
答:数据 仓库( Data Warehouse )是一个面向主题的( Subject Oriented )、集成的( Integrated )、相对稳定的( Non-Volatile )、反映历史变化( Time Variant )的数据集合,用于支持管理决策。
答:
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/代码探险家/article/detail/772457
推荐阅读
相关标签
  

闽ICP备14008679号