当前位置:   article > 正文

数仓相关_适合做数仓项目的数据源

适合做数仓项目的数据源
OLAP

OLTP 事务,是传统的关系型数据库的主要应用。主要是基本的、日常的事务处理,例如银行交易。
OLAP 分析,是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。

模型表为什么叫模型表
  • 因为可以通过不同模式(面向业务过程、面向分析、面向事件event主题)建模,这样表就按照某一个逻辑呈现、储存数据了。
数仓为什么要分层?

在实际项目中,常常根据业务需求频繁性来确定需要聚集的维度。此外,为了保证数据的一致性,汇总的事实表通常基于明细表的维度和事实进行计算,有汇总表可以节省计算成本

  • 应对业务方的数据需求,构建汇总表,这样不会每次查询的时候都调用事实表,从底层多个Join取数据。有了汇总表,频繁的查询下可以节省成本。

数据同步 ODS Stage 层

  • 各个系统的元数据通过ETL同步到操作性数据仓库ODS中
  • 为什么需要ETL呢?
  • 用户使用的应该是数据团队精心加工后的数据,而不是来自于业务系统的原始数据。原始数据库A里可能用1代表下单成功,0代表失败;而系统B里可能用success代表成功,fail代表下单失败。而作为数据使用者(分析师),最终希望看到的是一个汇总的、规范、包含所有订单信息而且口径统一的宽表。

  • 数据来源包括业务数据库(结构化)、日志数据(半结构化)、文本/音频/图片(非结构化)数据

DW层 DWD DWB DWS
DWD和DWS是由ODS层数据经过ETL清洗、转换、加载而生成的,而且它们通常都是基于Kimball的维度建模理论来构建的,并通过一致性维度和数据总线来保证各个子主题的维度一致性。

指标
  • 事务性指标:衡量业务活动 存量型指标:衡量状态,如截止当前的会员注册数;
  • 复合型指标:如浏览UV-下单买家转化率,是在前两者基础上计算、复合而成的
  • 比例型(留存)、排名型(TOP 15明细)等

数仓名词术语解释

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/931851
推荐阅读
相关标签
  

闽ICP备14008679号