【大数据技术】Hive基本原理以及使用教程_hive详细教程

作者：羊村懒王 | 2024-04-30 05:21:32

踩

hive详细教程

元数据存储：Hive 使用元数据来描述数据存储在Hadoop分布式存储系统中的方式。元数据包含表的schema（列名、数据类型等）、表的分区、表的位置等信息，这些元数据通常存储在关系型数据库中，如MySQL。
HiveQL查询解析：用户使用类SQL语言HiveQL编写查询，Hive会将HiveQL语句解析成抽象语法树AST（Abstract Syntax Tree），然后转化为逻辑执行计划，最终转换为物理执行计划。
执行引擎：Hive可以运行在不同的执行引擎上，比如MapReduce、Tez、Spark等。执行引擎负责将物理执行计划转换为任务并在Hadoop集群上执行。
数据存储格式：Hive支持多种数据存储格式，如文本文件、Parquet、ORC等。选择合适的数据存储格式可以影响查询性能和存储效率。

在终端输入 hive 命令启动Hive CLI（命令行界面）。

CREATE DATABASE IF NOT EXISTS mydatabase;


CREATE TABLE IF NOT EXISTS mytable (
    id INT,
    name STRING
) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE;

LOAD DATA LOCAL INPATH '/path/to/datafile.csv' OVERWRITE INTO TABLE mytable;

SELECT * FROM mytable WHERE id = 1;


CREATE TABLE IF NOT EXISTS partitioned_table (
    id INT,
    name STRING
) PARTITIONED BY (date STRING);

SELECT COUNT(*) FROM mytable;

可以编写自定义函数（UDF、UDAF）并在Hive中注册和使用以扩展功能。

在Hive CLI中输入 quit; 或 exit; 命令退出Hive。

参考资料

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/羊村懒王/article/detail/511611