赞
踩
数据运营层 ODS、数据仓库层 DW(DWD、DWM、DWS)、数据应用层 ADS、维表层
数据运营层 ODS (Operational Data Store) 面向主题的
数据仓库层 DW ( Data Warehouse)
存放我们要重点设计的数据仓库中间层数据
数据明细层 DWD( Data Warehouse Detail)
数据中间层 DWM (Data WareHouse Middle)
数据服务层 DWS (Data WareHouse Servce)
在实际计算中,如果直接从DWD或者ODS计算出宽表的统计指标,会存在计算量太大并且维度太少的问题,因此一般的做法是,在DWM层先计算出多个小的中间表,然后再拼接成一张DWS的宽表。
dws和dwd是并行的
数据应用层 APP (Application)
星形模式
雪花模式
星座模式
三种模式对比
思路:详细分析需求,对业务的整个生命周期进行分析,明确关键的业务步骤,从而选择与需求有关的业务过程;业务过程通常使用行为动词表示业务执行的活动;
该订单流转的业务过程有 4 个:创建订单 → 买家付款 → 卖家发货 → 买家确认收货;
选择与维度建模有关的业务过程:是选择 “买家付款” 这个业务过程,还是选择 “创建订单” 和 “买家付款” 这两个业务过程
根据所选的业务过程确定事实表类型;如,选择 “买家付款” 这个业务过程,则事实表类型应为只包含买家付款这一个业务过程的 “单事务事实表”;,选择了所有 4 个业务过程,并且需要分享各业务过程的时间间隔,则事实表类型应为包含了所有 4 个业务过程的 “累积快照事实表”
地区 - 商店 - 交易记录 - 顾客 - 产品 - 种类 - 卖主
ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,是数据仓库的生命线。
抽取(Extract)主要是针对各个业务系统及不同服务器的分散数据,充分理解数据定义后,规划需要的数据源及数据定义,制定可操作的数据源,制定增量抽取和缓慢渐变的规则。
转换(transform)主要是针对数据仓库建立的模型,通过一系列的转换来实现将数据从业务模型到分析模型,通过ETL工具可视化拖拽操作可以直接使用标准的内置代码片段功能、自定义脚本、函数、存储过程以及其他的扩展方式,实现了各种复杂的转换,并且支持自动分析日志,清楚的监控数据转换的状态并优化分析模型。
装载(Load)主要是将经过转换的数据装载到数据仓库里面,可以通过直连数据库的方式来进行数据装载,可以充分体现高效性。在应用的时候可以随时调整数据抽取工作的运行方式,可以灵活的集成到其他管理系统中
在传统数仓中,数据量小,计算逻辑相对简单,我们可以直接用ETL工具实现数据转换(T),转换之后再加载到目标库。但在大数据场景下,数据量越大越大,计算逻辑愈发复杂,数据清洗需放在运算能力更强的分布式计算引擎中完成,ETL也就变成了ELT(Extract-Load-Transform)。即:Extract-Transform-Load >> Extract-Load-Transform
ETL加载策略:增量、全量、流式
OLAP需要以大量历史数据为基础,再配合上时间点的差异,对多维度及汇整型的信息进行复杂的分析。
Online Analytical Process,以多维度的方式分析数据,而且能够弹性地提供**上卷(Roll-up)、下钻(Drill-down)和透视分析(Pivot)**等操作,它是呈现集成性决策信息的方法,多用于决策支持系统、商务智能或数据仓库
OLAP分类
OLAP基本操作
OLAP选型: kylin 和 druid
OLTP | OLAP | |
---|---|---|
对象 | 业务开发人员 | 分析决策人员 |
功能 | 日常事务处理 | 面向分析决策 |
模型 | 关系模型 | 多维模型 |
数据量 | 几条或几十条记录 | >百万于万条记录 |
操作类型 | 增、删、查、改(CRUD) | 查询为主 |
总体概括 | 联机事务处理 | 在线分析处理 |
一个管理元数据信息的系统,能够提供方便的元数据的操作和查询操作
metadata 即元数据。包含 database、tabel、column names、partitions 信息、bucketing 信息等的元数据信息。 元数据默认是存储在 Derby 中,建议存储在关系型数据库中。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。