赞
踩
0)数据准备
原始数据
- dept:
- 10 ACCOUNTING 1700
- 20 RESEARCH 1800
- 30 SALES 1900
- 40 OPERATIONS 1700
- emp:
- 7369 SMITH CLERK 7902 1980-12-17 800.00 20
- 7499 ALLEN SALESMAN 7698 1981-2-20 1600.00 300.00 30
- 7521 WARD SALESMAN 7698 1981-2-22 1250.00 500.00 30
- 7566 JONES MANAGER 7839 1981-4-2 2975.00 20
- 7654 MARTIN SALESMAN 7698 1981-9-28 1250.00 1400.00 30
- 7698 BLAKE MANAGER 7839 1981-5-1 2850.00 30
- 7782 CLARK MANAGER 7839 1981-6-9 2450.00 10
- 7788 SCOTT ANALYST 7566 1987-4-19 3000.00 20
- 7839 KING PRESIDENT 8888 1981-11-17 5000.00 10
- 7844 TURNER SALESMAN 7698 1981-9-8 1500.00 0.00 30
- 7876 ADAMS CLERK 7788 1987-5-23 1100.00 20
- 7900 JAMES CLERK 7698 1981-12-3 950.00 30
- 7902 FORD ANALYST 7566 1981-12-3 3000.00 20
- 7934 MILLER CLERK 7782 1982-1-23 1300.00 10
(1)创建部门表
- create table if not exists dept(
- deptno int,
- dname string,
- loc int
- )
- row format delimited fields terminated by '\t';
(2)创建员工表
- create table if not exists emp(
- empno int,
- ename string,
- job string,
- mgr int,
- hiredate string,
- sal double,
- comm double,
- deptno int)
- row format delimited fields terminated by '\t';
(3)导入数据
- load data local inpath '/home/zzdq/dept.txt' into table dept;
- load data local inpath '/home/zzdq/emp.txt' into table emp;
1)全表查询
- hive (default)> select * from emp;
- hive (default)> select empno,ename,job,mgr,hiredate,sal,comm,deptno from emp ;
2)选择特定列查询
hive (default)> select empno, ename from emp;
注意:
(1)SQL 语言大小写不敏感。
(2)SQL 可以写在一行或者多行
(3)关键字不能被缩写也不能分行
(4)各子句一般要分行写。
(5)使用缩进提高语句的可读性。
1)重命名一个列
2)便于计算
3)紧跟列名,也可以在列名和别名之间加入关键字‘AS’
4)案例实操
查询名称和部门
hive (default)> select ename as name,deptno as dept from emp;
案例实操:查询出所有员工的薪水后加1 显示。
hive (default)> select mgr+100 from emp;
1)求总行数(count),这个有MR生成
hive (default)> select count(*) cnt from emp;
2)求工资的最大值(max),这个有MR生成
hive (default)> select max(mgr) from emp;
3)求工资的最小值(min)这个有MR生成
hive (default)> select min(mgr) from emp;
4)求工资的总和(sum)这个有MR生成
hive (default)> select sum(mgr) from emp;
5)求工资的平均值(avg)这个有MR生成
hive (default)> select avg(mgr) avg_sql from emp;
典型的查询会返回多行数据。LIMIT 子句用于限制返回的行数。
- hive (default)> select * from emp limit 5;
- hive (default)> select * from emp limit 2;
1)使用 WHERE 子句,将不满足条件的行过滤掉
2)WHERE 子句紧随 FROM 子句
3)案例实操
查询出薪水大于1000 的所有员工
hive (default)> select * from emp where sal >1000;
注意:where 子句中不能使用字段别名。
1)下面表中描述了谓词操作符,这些操作符同样可以用于 JOIN…ON 和 HAVING 语句中。
操作符 | 支持的数据类型 | 描述 |
---|---|---|
A=B | 基本数据类型 | 如果A等于B则返回TRUE,反之返回FALSE |
A<=>B | 基本数据类型 | 如果A和B都为NULL,则返回TRUE,如果一边为NULL,返回False |
A<>B, A!=B | 基本数据类型 | A或者B为NULL则返回NULL;如果A不等于B,则返回TRUE,反之返回FALSE |
A<B | 基本数据类型 | A或者B为NULL,则返回NULL;如果A小于B,则返回TRUE,反之返回FALSE |
A<=B | 基本数据类型 | A或者B为NULL,则返回NULL;如果A小于等于B,则返回TRUE,反之返回FALSE |
A>B | 基本数据类型 | A或者B为NULL,则返回NULL;如果A大于B,则返回TRUE,反之返回FALSE |
A>=B | 基本数据类型 | A或者B为NULL,则返回NULL;如果A大于等于B,则返回TRUE,反之返回FALSE |
A [NOT] BETWEEN B AND C | 基本数据类型 | 如果A,B或者C任一为NULL,则结果为NULL。 如果A的值大于等于B而且小于或等于C,则结果为TRUE,反之为FALSE。 如果使用NOT关键字则可达到相反的效果。 |
A IS NULL | 所有数据类型 | 如果A等于NULL,则返回TRUE,反之返回FALSE |
A IS NOT NULL | 所有数据类型 | 如果A不等于NULL,则返回TRUE,反之返回FALSE |
IN(数值1,数值2) | 所有数据类型 | 使用IN运算显示列表中的值 |
A [NOT] LIKE B | string类型 | B是一个SQL下的简单正则表达式,也叫通配符模式, 如果A与其匹配的话,则返回TRUE;反之返回FALSE。 B的表达式说明如下: 'x%’表示A必须以字母'x’开头, ‘%x’表示A必须以字母’x'结尾,而‘%x%'表示A包含有字母’x’, 可以位于开头,结尾或者字符串中间。如果使用NOT关键字则可达到相反的效果。 |
A RLIKE B, A REGEXP B | string类型 | B 是基于 java 的正则表达式,如果 A 与其匹配, 则返回 TRUE;反之返回 FALSE。 匹配使用的是 JDK 中的正则表达式接口实现的, 因为正则也依据其中的规则。 例如,正则表达式必须和整个字符串 A 相匹配, 而不是只需与其字符串匹配。 |
2)案例实操
(1)查询出薪水等于5000 的所有员工
- hive (default)> select * from emp where mgr = 7902;
- OK
- emp.empno emp.ename emp.job emp.mgr emp.hiredate emp.sal emp.comm emp.deptno
- 7369 SMITH CLERK 7902 1980-12-17 800.0 20.0 NULL
- Time taken: 0.285 seconds, Fetched: 1 row(s)
(2)查询工资在500 到1000 的员工信息
- hive (default)> select * from emp where mgr between 7500 and 7700;
- OK
- emp.empno emp.ename emp.job emp.mgr emp.hiredate emp.sal emp.comm emp.deptno
- 7499 ALLEN SALESMAN 7698 1981-2-20 1600.0 300.0 30
- 7521 WARD SALESMAN 7698 1981-2-22 1250.0 500.0 30
- 7654 MARTIN SALESMAN 7698 1981-9-28 1250.0 1400.0 30
- 7788 SCOTT ANALYST 7566 1987-4-19 3000.0 20.0 NULL
- 7844 TURNER SALESMAN 7698 1981-9-8 1500.0 0.0 30
- 7900 JAMES CLERK 7698 1981-12-3 950.0 30.0 NULL
- 7902 FORD ANALYST 7566 1981-12-3 3000.0 20.0 NULL
- Time taken: 0.576 seconds, Fetched: 7 row(s)
(3)查询 comm 为空的所有员工信息
- hive (default)> select * from emp where comm is null;
- OK
- emp.empno emp.ename emp.job emp.mgr emp.hiredate emp.sal emp.comm emp.deptno
- 7839 KING PRESIDENT NULL 5000.00 10.0 NULL NULL
- Time taken: 0.229 seconds, Fetched: 1 row(s)
(4)查询工资是1500 或5000 的员工信息
- hive (default)> select * from emp where sal in (1500,2600);
- OK
- emp.empno emp.ename emp.job emp.mgr emp.hiredate emp.sal emp.comm emp.deptno
- 7844 TURNER SALESMAN 7698 1981-9-8 1500.0 0.0 30
- Time taken: 0.176 seconds, Fetched: 1 row(s)
1)使用 LIKE 运算选择类似的值
2)选择条件可以包含字符或数字: %代表零个或多个字符(任意个字符)。 _ 代表一个字符。
3)RLIKE子句 RLIKE 子句是 Hive 中这个功能的一个扩展,其可以通过 Java 的正则表达式这个更强大的语言来指定匹配条件。
4)案例实操
(1)查找名字以 A 开头的员工信息 hive (default)> select * from emp where ename LIKE 'A%';
(2)查找名字中第二个字母为 A 的员工信息 hive (default)> select * from emp where ename LIKE '_A%';
(3)查找名字中带有 A 的员工信息 hive (default)> select * from emp where ename RLIKE '[A]';
1)案例实操
(1)查询薪水大于1000,部门是30
- hive (default)> select * from emp where sal>1000 and deptno=30;
- OK
- emp.empno emp.ename emp.job emp.mgr emp.hiredate emp.sal emp.comm emp.deptno
- 7499 ALLEN SALESMAN 7698 1981-2-20 1600.0 300.0 30
- 7521 WARD SALESMAN 7698 1981-2-22 1250.0 500.0 30
- 7654 MARTIN SALESMAN 7698 1981-9-28 1250.0 1400.0 30
- 7844 TURNER SALESMAN 7698 1981-9-8 1500.0 0.0 30
- Time taken: 0.696 seconds, Fetched: 4 row(s)
(2)查询薪水大于1000,或者部门是30
- hive (default)> select * from emp where sal>1000 or deptno=30;
- OK
- emp.empno emp.ename emp.job emp.mgr emp.hiredate emp.sal emp.comm emp.deptno
- 7499 ALLEN SALESMAN 7698 1981-2-20 1600.0 300.0 30
- 7521 WARD SALESMAN 7698 1981-2-22 1250.0 500.0 30
- 7566 JONES MANAGER 7839 1981-4-2 2975.0 20.0 NULL
- 7654 MARTIN SALESMAN 7698 1981-9-28 1250.0 1400.0 30
- 7698 BLAKE MANAGER 7839 1981-5-1 2850.0 30.0 NULL
- 7782 CLARK MANAGER 7839 1981-6-9 2450.0 10.0 NULL
- 7788 SCOTT ANALYST 7566 1987-4-19 3000.0 20.0 NULL
- 7844 TURNER SALESMAN 7698 1981-9-8 1500.0 0.0 30
- 7876 ADAMS CLERK 7788 1987-5-23 1100.0 20.0 NULL
- 7902 FORD ANALYST 7566 1981-12-3 3000.0 20.0 NULL
- 7934 MILLER CLERK 7782 1982-1-23 1300.0 10.0 NULL
- Time taken: 0.22 seconds, Fetched: 11 row(s)
(3)查询除了20 部门和30 部门以外的员工信息
- hive (default)> select * from emp where not deptno=20 or not deptno=30;
- OK
- emp.empno emp.ename emp.job emp.mgr emp.hiredate emp.sal emp.comm emp.deptno
- 7499 ALLEN SALESMAN 7698 1981-2-20 1600.0 300.0 30
- 7521 WARD SALESMAN 7698 1981-2-22 1250.0 500.0 30
- 7654 MARTIN SALESMAN 7698 1981-9-28 1250.0 1400.0 30
- 7844 TURNER SALESMAN 7698 1981-9-8 1500.0 0.0 30
- Time taken: 0.193 seconds, Fetched: 4 row(s)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。