赞
踩
2021-06-14 version-0.0.1
数据仓库分层(五层,从上到下数据量依次越来越少)
原始数据层:存放原始数据,直接加载原始日志、数据,数据保持原貌不做处理。
明细数据层:对ODS层数据进行清洗(去除控制,脏数据,超过极限范围的数据)、脱敏等。保存明细数据,一行信息代表一次业务行为,例如一次下单。
服务数据层:以DWD为基础,按天进行轻度汇总。一行信息代表一个主题对象一天的总行为,例如一个用户一天下单次数。
服务主题层:以DWS层为基础,对数据进行累积汇总。一行信息代表一个主题对象的累积行为,例如一个用户从注册那天开始至今一共下了多少次单。
数据应用层:为各种统计报表提供数据。
数仓为什么要分层?
(1)把复杂问题简单化:将复杂的任务分解成多层来完成,每一层处理简单的任务,方便定位问题。
(2)减少重复开发:规范数据分层,通过的中间层数据,能够减少极大的重复计算,增加一次计算结果的复用性。
(3)隔离原始数据:不论是数据的异常还是数据的敏感性,使真实数据与统计数据解耦开。
2021.10.25 update version-0.0.2
2023-07-21 update version-0.0.3
为什么要对数据仓库分层?
用空间换时间
,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据。
如果不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大。
通过数据分层管理可以简化数据清洗的过程
,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一个大的黑盒变成了一个白盒,每一层的处理逻辑都相对简单和容易理解,这样我们比较容易保证每一个步骤的正确性,当数据发生错误的时候,往往我们只需要局部调整某个步骤即可。
数据仓库分层规划
数据仓库构建流程
https://mp.weixin.qq.com/s/h6HnkROzljralUj2aZyNUQ
我们下期见,拜拜!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。