当前位置:   article > 正文

大数据-数据仓库(Data Warehouse):概述【面向主题的、集成的、相对稳定的、反映历史变化的数据集合;是一个数据处理过程(清洗、转义、分类、重组、合并、拆分、统计等)】_datawarehouse

datawarehouse

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

一、数据仓库介绍

1、数据仓库概念

数据仓库概念创始人在《建立数据仓库》一书中对数据仓库的定义是:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、数据集成的(Integrated)、相对稳定(非易失)的(Non-Volatile)、反映历史变化(时变)(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。

  • 数据仓库本质上就是存储数据仓库, 仓库最大的特点既不生产数据不消耗数据, 数据来源于各个数据源
  • 数据仓库面向于主题的, 主要是用于进行数据分析, 对过去既定发生过数据, 进行分析处理, 从而对未来提供决策支持

数据仓库是决策支持系统(dss)的结构化数据环境,如下图,决策支持系统基于数据仓库进行联机分析处理 ( OLAP ) 。常用的技术有,HDFS、HBase、Hive、SparkSql等。

在这里插入图片描述

  1. 数据采集, 将源数据采集到数据仓库
  2. 基于数据仓库进行数据分析
  3. 生成报表

2、OLTP和OLAP区别

OLTP(On-Line Transaction Processing)即联机事务处理,也称为面向交易的处理过程,其基本特征是前台接收的用户数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果,是对用户操作快速响应的方式之一,比如ERP系统,CRM系统,互联网电商系统等,这类系统的特点是事务操作频繁,数据量小。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。

OLAP(On-Line Analytical Processing)即联机分析处理,有时也称为决策支持系统(DSS),支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。这类系统的特点是没有事务性操作,主要是查询操作,数据量大。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。

详细的区别如下:
在这里插入图片描述

  • OLTP: 面向于业务(事务)的, 主要用于捕获数据, 主要对数据进行CURD操作, 存储最近业务使用数据, 交互性强, 存储数据量较小。
  • OLAP:面向于主题的, 主要用于数据分析 , 主要对数据进行查询操作 , 存储过去既定发生过的数据(历史数据), 交互性弱 存储数据量比较大

二、数据仓库的特点

  • 面向于主题: 所谓主题指的就是分析的需求
  • 集成性: 数据来源于各个数据源, 种类丰富
  • 非易失型: 数据比较稳定, 一般不会发生修改的问题 但是存在新增的操作
  • 时变性: 原有分析手段可能无法满足后续的分析需求, 需要调整分析的方案, 同时随着时间推移, 数据也会进行新增操作

1、面向主题

理解主题的概念可以和数据库应用系统对比理解。

数据库应用是以业务流程划分应用程序和数据库,比如ERP(Enterprise Resource Planning)包括:进销存系统、人力资源管理系统、财务管理系统、仓库管理系统等,进销存系统管理了进货、销售、存储等业务流程,人力资源系统管理了员工的信息、待遇等相关信息。

数据仓库是以数据分析需求来对数据进行组织划分若干主题,比如销售主题、员工主题、产品主题,主题是一个抽象的概念,可以理解为相关数据的分类、目录等,通过销售主题可以进行销售相关的分析,如年度销量排行、月度订单量统计等。

总之:

  • 数据仓库主题是以分析需求为导向来组织数据
  • 数据库应用系统是以业务流程为导向来组织数据;

注意:主题中的数据是跨应用系统的。

2、数据集成

主题中的数据是跨应用系统的,也就是说数据是分散在各各应用系统,比如销售数据在进销存系统中有,财务系统中也有,为了进行销售分析需要将销售数据进行集成,集成在销售主题中,就可以从销售主题来进行数据分析。

3、非易失

数据库应用系统是根据业务需求进行数据处理和存储,而数据仓库是根据数据分析需求来进行数据存储,数据仓库中的数据用于查询和分析,为了保证数据分析的准确性和稳定性,数据仓库中的数据一般是很少更新的,会将历史快照保存下来。

4、时变

数据仓库中的数据存储的是历史数据,历史数据是随时间变化的,比如历年的销售数据都会存储到数据仓库中,即使数据仓库中的数据很少更新,但也不能保证没有变化,如下需求:

  1. 会不断添加新数据
    每年的销售数据会逐渐添加到数据仓库。
  2. 删除过期数据
    数据仓库中的数据会保存很长的时间(5–10年),但也有过期时间,到过期 时间会删除过期 数据。
  3. 对历史明细数据进行聚合
    为了方便数据分析,根据分析需求会将比较细粒度的数据进行数据聚合存储,这也是时变的一种表现,比如:为了方便统计年度销售额会将销售记录按月进行统计,统计年度销售额时只需要针对月度销售结果进行统计即可。

三、数据仓库系统架构

1、系统结构图

数据仓库提供企业决策分析的数据环境,数据从哪里获取?数据如何存储到数据仓库?决策分析系统如何从数据仓库获取数据进行分析?

我们可以把数据从获取、存储到数据仓库、数据分析的所有部分称为一个数据仓库系统

下图是数据仓库系统的结构图:
在这里插入图片描述
以下系统各部分的执行流程是:

  1. 确定分析所依赖的源数据。
  2. 通过ETL将源数据采集到数据仓库。
  3. 数据按照数据仓库提供的主题结构进行存储。
  4. 根据各部门的业务分析要求创建数据集市(数据仓库的子集)。
  5. 决策分析、报表等应用系统从数据仓库查询数据、分析数据。
  6. 用户通过应用系统查询分析结果、报表。

2、原数据

源数据是指用于分析的原始数据,这一步主要是根据分析需求确定源数据,这个数据分布在内部系统和外部分系统中,

  • 内部数据主要是企业ERP系统;
  • 外部数据是指企业外部分系统所产生的数据,通常是指行业数据。

源数据最大的特点是格式不统一,如果要对源数据进行分析需要经过ETL对数据进行集中获取、过虑、转换等处理。

3、ETL

ETL(Extra, Transfer, Load)包括数据抽取、数据转换、数据装载三个过程。

  • 狭义上ETL:
    • 指的从数据仓库的ODS层将数据抽取出来, 对数据进行清洗转换处理工作, 最终将数据加载到DW层过程
  • 宽泛的ETL:
    • 整个数仓全过程, 从源数据 --> ODS层 , 从ODS --> DW层, 从DW层–> APP层
  • 抽取
    数据抽取是从各各业务系统、外部系统等源数据处采集源数据。
  • 转换
    采集过来的源数据如果要存储到数据仓库需要按照一定的数据格式对源数据进行转换,常见的转换方式有数据类型转换、格式转换、缺失值补充、数据综合等。
  • 装载
    转换后的数据就可以存储到数据仓库中,这个过程要装载。数据装载通常是按一定的频率进行的,比如每天装载当天的订单数据、每星期装载客户信息等。

4、数据仓库与数据集市

数据仓库是用于企业整体分析的数据集合,比如分为:销售主题、客户主题、产品主题等。数据集市是用于部门分析的数据集合,从范围上来讲它属于数据仓库的子集,比如:销售部门的数据集市只有销售主题。

为什么会有数据集市的概念?

  • 通常从企业整体出发去建数据仓库比较困难,所涉及到的业务及分析需求比较多,所以提出数据集市的概念,可以先从某个部门开始建设数据仓库,这样效率就比较高。

建设数据仓库的过程:

  • 业界把从企业整体出发建设数据仓库的过程叫自顶向下;
  • 把从数据集市开始建设数据仓库再逐渐完善整个数据仓库的过程叫自下向上。

通常建议自下向上建设数据仓库,不过这个在业界也存在争议。

数据仓库和数据集市具有什么区别?

  1. 范围的区别
    • 数据仓库是针对企业整体分析数据的集合。
    • 数据集市是针对部门级别分析的数据集合。
  2. 数据粒度不同
    • 数据仓库通常包括粒度较细的数据明细。
    • 数据集市则会在数据仓库的基础上进行数据聚合,这些聚合后的数据就会直接用于部门业务分析。

5、应用系统

这里的应用系统是指使用数据仓库完成数据分析、数据查询、数据报表等功能的系统。

应用系统需要从数据仓库中查询数据、分析数据,比如:OLAP 系统、数据查询系统等。

6、用户

使用数据仓库系统的用户主要有数据分析人员、管理决策人员(公司高层)等。

四、维度分析

  • 维度: 维度是事务的特征, 分析问题角度, 在面对一个分析的需求的时候, 可以站在不同的角度上进行分析, 这些角度其实就是维度

    • 例如: 老板 提出一个要分析过去一年订单销售的情况

      • 计算维度: 地区维度, 时间维度, 商品维度, 用户维度, 商家的维度, 订单量在在100~500之间的省份…
    • 维度的分类:

      • 定性维度 : 地区 , 时间 ,商品
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/504776
推荐阅读
相关标签
  

闽ICP备14008679号