当前位置:   article > 正文

数据仓库分层(五层,从上到下数据量依次越来越少)_数仓分层操作

数仓分层操作

2021-06-14 version-0.0.1

数仓分层

数据仓库分层(五层,从上到下数据量依次越来越少)

1

ODS(Operation Data Store)原始数据层

原始数据层:存放原始数据,直接加载原始日志、数据,数据保持原貌不做处理。

DWD(date warehouse detail)明细数据层

明细数据层:对ODS层数据进行清洗(去除控制,脏数据,超过极限范围的数据)、脱敏等。保存明细数据,一行信息代表一次业务行为,例如一次下单。

DWS(data warehouse service)服务数据层

服务数据层:以DWD为基础,按天进行轻度汇总。一行信息代表一个主题对象一天的总行为,例如一个用户一天下单次数。

DWT(date warehouse Topic)服务主题层

服务主题层:以DWS层为基础,对数据进行累积汇总。一行信息代表一个主题对象的累积行为,例如一个用户从注册那天开始至今一共下了多少次单。

ADS(Application Data Store)数据应用层

数据应用层:为各种统计报表提供数据。


数仓为什么要分层?
(1)把复杂问题简单化:将复杂的任务分解成多层来完成,每一层处理简单的任务,方便定位问题。

(2)减少重复开发:规范数据分层,通过的中间层数据,能够减少极大的重复计算,增加一次计算结果的复用性。

(3)隔离原始数据:不论是数据的异常还是数据的敏感性,使真实数据与统计数据解耦开。


2021.10.25 update version-0.0.2

x


2023-07-21 update version-0.0.3

为什么要对数据仓库分层?

  • 用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据。

  • 如果不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大。

  • 通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一个大的黑盒变成了一个白盒,每一层的处理逻辑都相对简单和容易理解,这样我们比较容易保证每一个步骤的正确性,当数据发生错误的时候,往往我们只需要局部调整某个步骤即可。

数据仓库分层规划

111

数据仓库构建流程

222

万字详解整个数据仓库建设体系

https://mp.weixin.qq.com/s/h6HnkROzljralUj2aZyNUQ


我们下期见,拜拜!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/400887
推荐阅读
相关标签
  

闽ICP备14008679号