繁依Fanyi0

这个屌丝很懒，什么也没留下！

热门标签

热门文章

当前位置: article > 正文

【大数据基础实践】(六)数据仓库Hive的基本操作_熟悉hive的基本操作_hive数仓数据执行

作者：繁依Fanyi0 | 2024-06-07 16:05:33

赞

踩

hive数仓数据执行

2.3 生态系统

Hive依赖于HDFS 存储数据、
Hive依赖于MapReduce 处理数据
在某些场景下Pig可以作为Hive的替代工具
HBase 提供数据的实时访问
Pig主要用于数据仓库的ETL环节
Hive主要用于数据仓库海量数据的批处理分析

在这里插入图片描述

3. Hive系统架构

用户接口模块。包括CLI、HWI、JDBC、ODBC、Thrift Server
驱动模块（Driver）。包括编译器、优化器、执行器等，负责把HiveQL语句转换成一系列MapReduce作业
元数据存储模块（Metastore）。是一个独立的关系型数据库（自带derby数据库，或MySQL数据库）

在这里插入图片描述

4. HQL转成MapReduce作业的原理

4.1 join的实现原理

select name, orderid from user join order on user.uid=order.uid;

1
2

在这里插入图片描述

4.2 group by的实现原理

存在一个分组（Group By）操作，其功能是把表Score的不同片段按照rank和level的组合值进行合并，计算不同rank和level的组合值分别有几条记录：

select rank, level ,count(\*) as value from score group by rank, level

1
2

在这里插入图片描述

5. 实验练习

5.1 环境配置

5.1.1 HIVE

在这里插入图片描述
将Hive解压到/usr/local中

更改名字

更改hive目录所有者和所在用户组

环境配置

使环境生效

5.1.2 MYSQL

更新软件源
在这里插入图片描述

本文内容由网友自发贡献，转载请注明出处：https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/686074

推荐阅读

相关标签

Copyright © 2003-2013 www.wpsshop.cn 版权所有，并保留所有权利。

闽ICP备14008679号