赞
踩
数据治理(Data Governance),是一套持续改善管理机制,通常包括了数据架构组织、数据模型、政策及体系制定、技术工具、数据标准、
数据质量、影响度分析、作业流程、监督及考核流程等内容。
打通各个业务线之间的数据建设,很多公司都是统一建设
注:DAMA 是数据管理协会的简称,是一个全球性数据管理和业务专业志愿人士组成的非营利协会,致力于数据管理的研究和实践。
数据控制:在数据管理和使用层面之上进行规划、监督和控制。
数据架构管理:定义数据资产管理蓝图。
数据开发:数据的分析、设计、实施、测试、部署、维护等工作。
数据操作管理:提供从数据获取到清除的技术支持。
数据安全管理:确保隐私、保密性和适当的访问权限等。
数据质量管理:定义、监测和提高数据质量。
参考数据和主数据管理:管理数据的黄金版本和副本。
数据仓库和商务智能管理:实现报告和分析。
文件和内容管理:管理数据库以外的数据。
元数据管理:元数据的整合、控制以及提供元数据。
这个是一个长期的工作,类似于代码重构
专项性质的治理方案,主要针对有人负责的项目
表的命名就涉及到数据域的划分,因为表的命名需要将数据域囊括进去
中间表一般出现在Job中,是Job中临时存储的中间数据的表,中间表的作用域只限于当前Job执行过程中,Job一旦执行完成,该中间表的使命就完成了,是可以删除的(按照自己公司的场景自由选择,以前公司会保留几天的中间表数据,用来排查问题)。
垃圾的数仓就会出现大量的跨层调用,所以可以通过跨层调用ods 表率来衡量数仓的建设
相关性强是指经常需要一起查询或进行报表展现、两个维度属性间是否存在天然的关系等。例如,商品基本属性和所属品牌。
数据的水平和垂直拆分是按照访问热度分布和数据表非空数据值、零数据值在行列二维空间上分布情况进行划分的。
有些场景下,我们需要删除某些数据,一般不会物理删除,会通过一个字段来做逻辑删除,请和开发同学沟通好,使用固定的一个字段,并确认该字段双方的理解是一致的,不然后面又很多坑
面试官说这些都是一些原则,比较虚,有没有可衡量的指标?就是一个数据仓库建好了,用这些指标评价它好不好,有不好的要指出来,指导它改进。
需要持续不断的业务逻辑重构,是整体的sql 水平上升,提倡优化精神
通过冗余维度和事实表,进行公共计算逻辑下沉,明细与汇总共存等为业务提供灵活性
事务型事实表一般选用事件发生日期或时间作为分区字段,这种分区方式可以方便下游的作业数据扫描执行分区裁剪
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。