赞
踩
元数据存储:Hive 使用元数据来描述数据存储在Hadoop分布式存储系统中的方式。元数据包含表的schema(列名、数据类型等)、表的分区、表的位置等信息,这些元数据通常存储在关系型数据库中,如MySQL。
HiveQL查询解析:用户使用类SQL语言HiveQL编写查询,Hive会将HiveQL语句解析成抽象语法树AST(Abstract Syntax Tree),然后转化为逻辑执行计划,最终转换为物理执行计划。
执行引擎:Hive可以运行在不同的执行引擎上,比如MapReduce、Tez、Spark等。执行引擎负责将物理执行计划转换为任务并在Hadoop集群上执行。
数据存储格式:Hive支持多种数据存储格式,如文本文件、Parquet、ORC等。选择合适的数据存储格式可以影响查询性能和存储效率。
在终端输入 hive
命令启动Hive CLI(命令行界面)。
CREATE DATABASE IF NOT EXISTS mydatabase;
- CREATE TABLE IF NOT EXISTS mytable (
- id INT,
- name STRING
- ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE;
LOAD DATA LOCAL INPATH '/path/to/datafile.csv' OVERWRITE INTO TABLE mytable;
SELECT * FROM mytable WHERE id = 1;
- CREATE TABLE IF NOT EXISTS partitioned_table (
- id INT,
- name STRING
- ) PARTITIONED BY (date STRING);
SELECT COUNT(*) FROM mytable;
可以编写自定义函数(UDF、UDAF)并在Hive中注册和使用以扩展功能。
在Hive CLI中输入 quit;
或 exit;
命令退出Hive。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。