当前位置:   article > 正文

Hive的基本概念和常用命令_1、在相应的行旁边标注hive创建表的常用命令分别代表什么意思?

1、在相应的行旁边标注hive创建表的常用命令分别代表什么意思?

一、概念:

1、结构化和非结构化数据

结构化数据:固有的键值对

非结构数据:没有固定的键值对,没有明确的映射关系

所以就可以理解下面这句话:hive是由facebook开源用于解决海量结构化日志的数据统计项目。

2、Hive是基于Hadoop文件系统上的数据仓库架构,它为数据仓库的管理提供了许多功能:数据ETL(抽取、转换和加载)、数据存储管理和大型数据集的查询和分析能力。

RDBMS(关系型数据库)

OLTP(联机事务处理过程):一组事务同时去执行,低延迟,查询为主。

ACID(原子性、一致性、隔离性、持久性)

OLAP(联机分析处理过程):以数据仓库为基础,高延迟,分析为主。

3、Hive定义了类SQL语言-Hive QL(HQL),允许用户进行和SQL相似的操作,它可以将结构化的数据文件映射为一张数据表,并提供简单的SQL查询功能,同时允许开发人员方便的使用MR操作,可以将SQL语言转换为MR任务运行。

二、官网:

Hive的基本概念和常用命令

 

三、ETL

E:Extract 数据抽取

T:Transform 数据转换

L:Load数据装载

ETL是将业务系统的数据经过抽取、清洗转换之后,装载到数据仓库的过程。目的是将分散、零乱、标准不统一的数据整合到一起。例如项目日志信息、数据爬虫信息等。就可以提供决策分析依据了。

数据抽取:把不同的数据源数据抓取过来,存到某个地方。

数据清洗:过滤哪些不符合要求的数据或修正数据之后再进行抽取。不完整数据:比如信息缺失。错误数据:日期格式不正确、日期越界、字符串出现空格等重复数据:需要去重等

数据转换:不一致的数据进行转换,比如一个职工有职工号和人事号,学生有身份证号和学号等

常见ETL工具:Oracle的OWB、SQL Server的DTS、SSIS服务、Informatic等等,工具可以快速建立起ETL工程,屏蔽了复杂的编码任务、提高了速度,降低了难度,但是缺少灵活性。

SQL方法优点是灵活,提高了ETL效率,但是编码复杂,对技术要求高。

Hive结合了前面两种的优点。

四、安装Hive

可参考之前安装Hive的文档教程《CentOS6.5安装Hive-1.2.2》。

也可以进入官网参考

找到Getting Started Guide

Hive的基本概念和常用命令

 

Hive的基本概念和常用命令

 

选择Running Hive

Hive的基本概念和常用命令

 

Hive的基本概念和常用命令

 

五、常用命令

安装完成后我们进入hive

Hive的基本概念和常用命令

 

在官网上有命令使用的文档

Hive的基本概念和常用命令

 

文档内容

Hive的基本概念和常用命令

 

我们使用一些命令:

查看数据库show databases;

Hive的基本概念和常用命令

 

创建数据库show database 库名

Hive的基本概念和常用命令

 

可以查看HDFS上

Hive的基本概念和常用命令

 

使用数据库use 库名

Hive的基本概念和常用命令

 

创建表的数据类型,我们可以查看官网

Hive的基本概念和常用命令

 

就可以找到所有的数据类型了

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/634748
推荐阅读
相关标签
  

闽ICP备14008679号