赞
踩
数据治理哪些问题:一般分类为格式问题,缺失问题,数据重复,逻辑问题,关联性验证问题
以银行数据仓库来举例,复盘数据整个生命周期的治理
数据生命周期:指数据录入采集到数据的应用消亡
数据仓库的架构:源系统 --> ODS --> 数据仓库(主题层,共性加工层)–> 集市
数据来源可以是直接从数据库抽取,文本文件,excel文件等,不同来源的数据文件需要进行清洗转换后才可以存储到数据仓库中。数据清洗的过程中就会碰到很多杂七杂八的数据,面对格式问题,缺失问题,数据重复,逻辑问题,关联性验证问题应该怎么处理?
格式问题:经常会碰到字段中有空格,数字中有字母,日期格式不一致等问题,去除空格修正数据,转换格式
缺失问题:从重要性和缺失率两方面考虑,重要性高缺失率低:根据经验,业务知识进行估值补全,重要性低缺失率高影响不大可以直接去
除,重要性高,缺失率高的情况从其他渠道进行补全,重要性低缺失率低可以保留不做处理,也可以进行简单的补全。
逻辑问题:同源系统,业务进行沟通确认口径,才能判断下一步应该如何走。
数据重复问题:去除
关联性问题:表间关系,模型开发的重点哦~ (做个贷模型,贷款粒度的,需要有合同,有客户,有产品等这些主题之间需要有关联)
主题层: 机构 资产 财产 产品 营销 渠道 产品 当事人 协议 事件
便于理解:
银行是一个企业,同时也是一个机构,涉及企业机构就会有资产,财务的存在,银行有自己的产品(信用卡,黄金,期货等)有产品就需要有人进行买卖,买卖的人这就是当事人,进行的买卖就是销售,有销售就得有渠道(不管是线上还是线下),在进行买卖,存贷款的时候需要签合同,这就是协议,整体这个交易就是事件,从而对银行的财务,资产产生影响。
根据不同主题进行建模,属于维度建模(星型建模)
建立模型就需要有统一的标准,可以让使用者看到名字就知道是那个层级的,是做什么的,要做到见名知意,这就涉及到命名规范,同时也需要针对格式问题,缺失问题,数据重复,逻辑问题,关联性验证问题进行进一步的处理。
共性加工层:更贴近于业务,建模会有更多的汇总,计算,统计的情况,一般用雪花模型,和主题层的处理大同小异。
数据仓库 – >数据集市:集市的数据来源是数据仓库,基于数据仓库进行取数分析,报表开发等,面对的是业务,产品。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。