当前位置:   article > 正文

基于Hive和FineBI数据分析可视化案例--泰坦尼克号乘客数据集

基于Hive和FineBI数据分析可视化案例--泰坦尼克号乘客数据集

说明:本数据可视化报表是基于经典泰坦尼克号数据集所做的数据分析可视化呈现,数据存储仓库为hive,可视化软件为finebi,hive建库建表脚本均在datagrip上进行编写。生成的图表包含柱状图,折线图,饼状图,词云图,雷达图,文本框图。

数据来源:

【免费】泰坦尼克号乘客数据集(修改版)资源-CSDN文库

数据结构说明

表2-1 数据来源1前10行掺加统计的数据

67c9b53b83444304abdfac4c5acd6ed7.png

从原始数据集读入的数据结构

表2-2 数据结构表 

字段名称

字段类型

含义

passenger_id

string

乘客编号

survived

string

获救情况

pclass

string

乘客等级

name

string

姓名

sex

string

性别

age

string

年龄

sibsp

string

兄妹个数

parch

string

父母与小孩个数

ticket

string

船票信息

fare

string

票价

embarked

string

登场港口

建表建库过程

数据准备阶段

  1. #启动Hadoop集群
  2. start-all.sh
  3. #启动元数据存储服务
  4. nohup /export/server/apache-hive-3.1.2-bin/bin/hive --service metastore &
  5. #启动Apache Hive2服务
  6. nohup /export/server/apache-hive-3.1.2-bin/bin/hive --service hiveserver2 &
  7. #Apache Hive客户端
  8. /export/server/apache-hive-3.1.2-bin/bin/beeline
  9. #连接hiveserver2,执行CRUD
  10. !connect jdbc:hive2://node1:10000

创建数据库,以及原始数据表

  1. create database titanic;
  2. show databases ;
  3. use titanic;
  4. create table titanic_data(
  5. passenger_id string comment "乘客编号",
  6. survived string comment "获救情况",
  7. pclass string comment "乘客等级",
  8. name string comment "姓名",
  9. sex string comment "性别",
  10. age string comment "年龄",
  11. sibsp string comment "兄妹个数",
  12. parch string comment "父母与小孩的个数",
  13. ticket string comment "船票信息",
  14. fare string comment "票价",
  15. embarked string comment "登船港口"
  16. )
  17. row format delimited fields terminated by ',';

640ff211f5ee4470be9eed6b82359ea1.png图2-3 加载数据集至hdfs

将原始数据集放至hdfs

load data inpath '/titanic/data/titanic.csv' into table titanic.titanic_data;

  1. --加载数据集至hive,并验证数据集的前10
  2. select * from titanic_data limit 10;

5efb106edf7745d7a8db3988cbad635e.png
图2-4 验证数据集是否正确导入

数据清洗工作

  1. 数据清洗工作
  2. --数据清洗部分
  3. --将乘客的年龄转化化float型,单独存入一张年龄表
  4. create table age_info comment "年龄信息表" as select passenger_id,sex,cast(age as float)
  5. from titanic_data where length(age) >0;
  6. --将乘客的票价转化化float型,单独存入一张船票信息表
  7. create table fare_info comment "船票信息表" as select passenger_id,
  8. name,sex,cast(fare as float) from titanic_data ;
  9. --将乘客的姓氏进行拆分,单独存入一张姓氏表
  10. create table name_info comment "姓名信息表" as select passenger_id,
  11. split(name,". ")[2] as familyname from titanic_data;

需求统计部分

大屏设计与实现过程

step1文本框部分

baf1538e075f4791922a79e417fcbcb9.png

 图2-5 选择建立文本框相关联的表

09ffc4cf4ae449248ecaa35d9d168646.png

图2-6 添加乘客总人数文本框内容,调整颜色字体大小

0f87c9ffbd764fb695835002ae2a9baf.png

 图2-7 添加乘客生存人数文本框内容,调整颜色字体大小

dcda880dec5c4489a79ce330512d607d.png

图2-8 添加乘客死亡人数文本框内容,调整颜色字体大小

step2雷达图部分

4559a9c55e484fccae07a8445c05f6ec.png


图2-9 选择与雷达图相关的数据集

cf51bb6237904194a855a5814a9b1a76.png


图2-10 确定横轴纵轴调整颜色

step3柱状图部分

1957263a4a334747974fc7f521f2c9fc.png


图2-11 选择与柱状图相关的数据

e102f2eebe5c41ae81cb1e13be99bd84.png

图2-12 确定横轴纵轴调整颜色

step4饼状图部分

b6458b4f6c094069a647efd4cefc8f8e.png

     图2-13 确定与饼状图相关的数据集

ff12fcbd58314bd995129b3918db7d39.png

图2-14 确定角度,标签,颜色


step5词云图部分

c7bf76a82dd44e138cbbaaf94c57720a.png


图2-15 确定与词云图相关的数据集图

87248596bc0b45999bc7481ab7612042.png

 2-16 确定文本,大小,颜色

step6折线图部分

45935b47f43947799b63b53a9876fc3a.png

 图2-17 确定与折线图相关的数据集

355d54bd13d84feb84b50dac02410483.png

 图2-18 确定与横轴,纵轴,颜色

3de4b7a3d7614ab2b74da8a9dafb6644.png

图2-21 效果总览图

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/489193
推荐阅读
相关标签
  

闽ICP备14008679号