l Hive及beeline的命令行操作

l jdbc操作Hive

l Hive函数

3.1 Hive命令操作

3.1.1 Hive的基本操作





(1)desc database(extended)mybase(数据库名称) ; //查看数据库信息(括号内的可加可不加)extended表示扩展信息。

(2)alter database mybase set dbproperties ('created'='xpc'); //修改数据库,增加属性。

(3)create database mybase comment 'this is my first base'; //为数据库增加描述信息。

(4)create database mybase location '/x/x/x/x' ; //指定数据库存放hdfs的位置。

(5)create table default.test1 like mybase.test; //复制表结构,将mybase中test表的结构复制到default中的test1表中。

(6)load data local inpath '/x/x/x' overwrite into table xx ; //上传本地数据到hdfs中。

(7)load data inpath '/x/x/x' into table xx; //移动hdfs文件系统上的数据文件。

(8)insert into mybase.test2 select * from default.test0 where id >1203; //从default.test0中查找id>1203,插入到mybase.test2中。

(9)create table mybase.test3 as select * from default.test0; //复制表(表结构+数据)。

(10)select distinct id,name from xx ; //查询数据时重复的数据不要。

(11)insert into test2(id,name,age) values(5,'kk',22); //向表中插入一组数据。

(12)select all id,name,age from test2; //查询相同字段。

(13)select a.*,b,* from customers a inner join orders b on a.id=b.cid;

select a.*,b,* from customers a , orders b where a.id=b.id; //内连接。

(14)select * from test2 union select * from test2; //join是连接操作,union(纵向),join(横向)。

(15)select id,name from customers union all select id,orderno from orders; //union all是将多个结果合并输出。

3.1.2 Hive视图-索引


当使用Hive的表数据作为输入源时,有些情况下,Hive中的表定义和数据并不能满足分析的需求,例如有些列的值需要进行处理,有些列的类型不满足需求,甚至有时候我们在创建Hive表时为了方便快捷,会将Hive表的所有列的字段类型都定义为string,因此很多情况下使用之前需要对Hive上的数据格式等问题进行适当的处理。但是如果在Hive中通过修改原表来解决上面的问题,比如使用alter table 的方式修改原始表的Schema信息未免会对其他依赖Hive的组件有所影响(例如可能导致通过Sqoop等方式导入数据失败),而且也有可能导致之前的作业无法正常运行。于是我们需要考虑在不改变原表的情况下解决这个问题,我们想到的方案是使用Hive的视图。 Hive视图有几个特点:(1)不支持物化视图,物理文件并不存在。虚拟表也是表,但能显示出来。(2)只能查询,不能做加载数据操作。(3)视图的创建,只是保存一份元数据,查询视图时才执行对应的子查询。(4)view定义中若包含了ORDER BY/LIMIT语句,当查询视图时也进行ORDER BY/LIMIT语句操作,视图当中定义的优先级更高。(5)view支持迭代视图



create table test2(id int,name String,age int)row format delimited fields terminated by ''(lines terminated by '' )stored as textfile;


1 tom 12

2 tomas 13

3 tomaslee 14


load data inpath ‘/user/hive/warehouse/myhive.db/test2/test.txt’ into table test2;



select a.*,b.* from test2 a,test2 b where a.id=b.id;


hive> select a.*,b.* from test2 a,test2 b where a.id=b.id;

1 tom 12 1 tom 12

2 yons 13 2 yons 13

3 yarn 14 3 yarn 14

Time taken: 522.964 seconds, Fetched: 3 row(s)


create table res as select a.*,b.* from test2 a,test2 b where a.id=b.id;//会报错,显示id重复,于是create table res as select a.id,b.id from test2 a,test2 b where a.id=b.id;

hive> create table res as select a.id aid,b.id bid from test2 a,test2 b where a.id=b.id;


