当前位置:   article > 正文

Hive入门级教程(详细)

hive入门

什么是Hive

  • Hive 是建立在 Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。
  • Hive是SQL解析引擎,它将SQL语句转译成M/R Job然后在Hadoop执行。
  • Hive的表其实就是HDFS的目录/文件,按表名把文件夹分开。如果是分区表,则分区值是子文件夹,可以直接在M/R Job里使用这些数据。

Hive的metastore

  • metastore是hive元数据的集中存放地(元数据存在hive数据库的数据表与HDFS存储文件的对应关系)
  • metastore默认使用内嵌的derby数据库作为存储引擎
  • Derby引擎的缺点:一次只能打开一个会话
  • 使用Mysql作为外置存储引擎,多用户同时访问

Hive系统架构

Hive入门级教程(详细)

 

Hive安装

把hive-0.12.0.tar.gz解压到/data/目录下

[root@master conf]# tar -zxvf hive-0.12.0.tar.gz -C /data

配置Hive环境变量,可参考java环境变量配置。

[root@m

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/718803
推荐阅读
相关标签
  

闽ICP备14008679号