赞
踩
本实验将对汽车销售数据进行分析,使用HIVE QL语句来分析统计汽车行业、市场、个人等相关的数据。
准备数据
时间、销售地点、邮政编码、车辆类型、车辆型号、制造厂商名称、排量、油耗、功率、发动机型号、燃料种类、车外廓长宽高、轴距、前后车轮、轮胎规格、轮胎数、载客数、所有权、购买人相关信息等。
1. 创建数据库(名称:cars)
2 创建外部表(表名:cars、各字段名称和类型请查看数据确定)
其中,行格式内容如下:设置字段分隔符‘\t’,设置文件存储位置为'/cars'。
3. 导入数据
语法:load data local inpath ‘数据路径’ overwrite into table 表名.库名;
数据所在位置:/home/zkpk/experiment/cars.txt
4 查询前10行表数据
5. 统计山西省2013年每个月的汽车销售数量
6.不同车型销售统计分析:统计不同类型车在每个月的销量
分析:统计出每个月,每个车型的销售数量,按照车辆类型和月份分组,并且月份不能是null和空。
7. 针对某一品牌的竞争分析:统计五菱每一个月的销售量
实验过程
1. 创建数据库
hive> create database cars;
2. 创建外部表
- CREATE EXTERNAL TABLE IF NOT EXISTS cars(
- province STRING,
- month INT,
- city STRING,
- county STRING,
- year INT,
- cartype STRING,
- productor STRING,
- brand STRING,
- mold STRING,
- owner STRING,
- nature STRING,
- number INT,
- ftype STRING,
- outv INT,
- power FLOAT,
- fuel STRING,
- length INT,
- width INT,
- height INT,
- xlength INT,
- xwidth INT,
- xheight INT,
- count INT,
- base INT,
- front INT,
- norm STRING,
- tnumber INT,
- total INT,
- curb INT,
- hcurb INT,
- passenger STRING,
- zhcurb INT,
- business STRING,
- dtype STRING,
- fmold STRING,
- fbusiness STRING,
- name STRING,
- age INT,
- sex STRING
- )
- ROW FORMAT DELIMITED
- FIELDS TERMINATED BY '\t'
- STORED AS TEXTFILE;
检查一下表创建成功没有
3. 导入数据
load data local inpath '/home/zkpk/experiment/cars.txt' overwrite into table cars;
select * from cars; //看看数据导入成功没有
4 查询前10行表数据
select * from cars limit 10;
5. 统计山西省2013年每个月的汽车销售数量
select month,count(*)
from cars
where province='山西省' and year=2013
group by month;
6.不同车型销售统计分析:统计不同类型车在每个月的销量
select month,mold,count(*)
from cars
group by mold,month
having mold is not null and mold <> '' and month is not null;
7. 针对某一品牌的竞争分析:统计五菱每一个月的销售量
select month,count(*)
from cars
where brand='五菱' and month is not null
group by month;
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。