当前位置:   article > 正文

大数据技术原理与应用实验报告--hive数据仓库工具_第9章 数据仓库hive实验csdn

第9章 数据仓库hive实验csdn

本实验将对汽车销售数据进行分析,使用HIVE QL语句来分析统计汽车行业、市场、个人等相关的数据。

准备数据

  • 在桌面experiment文件夹中的cars.txt为山西省2013汽车销售数据
  • 数据字段说明

时间、销售地点、邮政编码、车辆类型、车辆型号、制造厂商名称、排量、油耗、功率、发动机型号、燃料种类、车外廓长宽高、轴距、前后车轮、轮胎规格、轮胎数、载客数、所有权、购买人相关信息等。

1. 创建数据库(名称:cars

2 创建外部表(表名:cars、各字段名称和类型请查看数据确定)

  • 第一个字段类型为字符串,字段名称:province(描述:省份)
  • 第二个字段类型为整型,字段名称:month(描述:月)
  • 第三个字段类型为字符串,字段名称:city(描述:城市)
  • 第四个字段类型为字符串,字段名称:county(描述:区、县)
  • 第五个字段类型为整型,字段名称:year(描述:年)
  • 第六个字段类型为字符串,字段名称:cartype(描述:车辆型号)
  • 第七个字段类型为字符串,字段名称:productor(描述:制造商)
  • 第八个字段类型为字符串,字段名称:brand(描述:品牌)
  • 第九个字段类型为字符串,字段名称:mold(描述:车辆类型)
  • 第十个字段类型为字符串,字段名称:owner(描述:所有权)
  • 第十一个字段类型为字符串,字段名称:nature(描述:使用性质)
  • 第十二个字段类型为整型,字段名称:number(描述:数量)
  • 第十三个字段类型为字符串,字段名称:ftype(描述:发动机型号)
  • 第十四个字段类型为整型,字段名称:outv(描述:排量)
  • 第十五个字段类型为双精浮点型,字段名称:power(描述:功率)
  • 第十六个字段类型为字符串,字段名称:fuel(描述:燃料种类)
  • 第十七个字段类型为整型,字段名称:length(描述:车长)
  • 第十八个字段类型为整型,字段名称:width(描述:车宽)
  • 第十九个字段类型为整型,字段名称:height(描述:车高)
  • 第二十个字段类型为整型,字段名称:xlength(描述:厢长)
  • 第二十一个字段类型为整型,字段名称:xwidth(描述:厢宽)
  • 第二十二个字段类型为整型,字段名称:xheight(描述:厢高)
  • 第二十三个字段类型为整型,字段名称:count(描述:轴数)
  • 第二十四个字段类型为整型,字段名称:base(描述:轴距)
  • 第二十五个字段类型为整型,字段名称:front(描述:前轮距)
  • 第二十六个字段类型为字符串,字段名称:norm(描述:轮胎规格)
  • 第二十七个字段类型为整型,字段名称:tnumber(描述:轮胎数)
  • 第二十八个字段类型为整型,字段名称:total(描述:总质量)
  • 第二十九个字段类型为整型,字段名称:curb(描述:整备质量)
  • 第三十个字段类型为整型,字段名称:hcurb(描述:核定载质量)
  • 第三十一个字段类型为字符串,字段名称:passenger(描述:核定载客)
  • 第三十二个字段类型为整型,字段名称:zhcurb(描述:准牵引质量)
  • 第三十三个字段类型为字符串,字段名称:business(描述:底盘企业)
  • 第三十四个字段类型为字符串,字段名称:dtype(描述:底盘品牌)
  • 第三十五个字段类型为字符串,字段名称:fmold(描述:底盘型号)
  • 第三十六个字段类型为字符串,字段名称:fbusiness(描述:发动机企业)
  • 第三十七个字段类型为字符串,字段名称:name(描述:车辆名称)
  • 第三十八个字段类型为整型,字段名称:age(描述:年龄)
  • 第三十九个字段类型为字符串,字段名称:sex(描述:性别)

其中,行格式内容如下:设置字段分隔符‘\t’,设置文件存储位置为'/cars'。

3. 导入数据

语法:load data local inpath ‘数据路径’ overwrite into table 表名.库名;

数据所在位置:/home/zkpk/experiment/cars.txt

4 查询前10行表数据

5. 统计山西省2013年每个月的汽车销售数量

6.不同车型销售统计分析:统计不同类型车在每个月的销量

分析:统计出每个月,每个车型的销售数量,按照车辆类型和月份分组,并且月份不能是null和空。

7. 针对某一品牌的竞争分析:统计五菱每一个月的销售量

实验过程

1. 创建数据库

hive> create database cars;

 2. 创建外部表

  1. CREATE EXTERNAL TABLE IF NOT EXISTS cars(
  2. province STRING,
  3. month INT,
  4. city STRING,
  5. county STRING,
  6. year INT,
  7. cartype STRING,
  8. productor STRING,
  9. brand STRING,
  10. mold STRING,
  11. owner STRING,
  12. nature STRING,
  13. number INT,
  14. ftype STRING,
  15. outv INT,
  16. power FLOAT,
  17. fuel STRING,
  18. length INT,
  19. width INT,
  20. height INT,
  21. xlength INT,
  22. xwidth INT,
  23. xheight INT,
  24. count INT,
  25. base INT,
  26. front INT,
  27. norm STRING,
  28. tnumber INT,
  29. total INT,
  30. curb INT,
  31. hcurb INT,
  32. passenger STRING,
  33. zhcurb INT,
  34. business STRING,
  35. dtype STRING,
  36. fmold STRING,
  37. fbusiness STRING,
  38. name STRING,
  39. age INT,
  40. sex STRING
  41. )
  42. ROW FORMAT DELIMITED
  43. FIELDS TERMINATED BY '\t'
  44. STORED AS TEXTFILE;

检查一下表创建成功没有

3. 导入数据

load data local inpath '/home/zkpk/experiment/cars.txt' overwrite into table cars;

select * from cars;   //看看数据导入成功没有

 

4 查询前10行表数据

select * from cars limit 10;

5. 统计山西省2013年每个月的汽车销售数量

select month,count(*)

 from cars

 where province='山西省' and year=2013

 group by month;

6.不同车型销售统计分析:统计不同类型车在每个月的销量

select month,mold,count(*)

from cars

group by mold,month

having mold is not null and mold <> '' and month is not null;

7. 针对某一品牌的竞争分析:统计五菱每一个月的销售量         

select month,count(*)

from cars

where brand='五菱' and month is not null

group by month;

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/561123
推荐阅读
相关标签
  

闽ICP备14008679号