赞
踩
概念
数据质量管理不是一时的数据治理手段,而是循环的管理过程。
数据质量管理不仅包含了对数据质量的改善,同时还包含了对组织的改善。
数据质量管理不单纯是一个概念,也不单纯是一项技术、也不单纯是一个系统,更不单纯是一套管理流程,数据质量管理是一个集方法论、技术、业务和管理为一体的解决方案。
用一种很抽象的比喻描述,如果把整个数据应用比作人体的话,那好的数据就相当于新鲜和沸腾的血液,能让我们的身体充满活力,高效地工作思考。而质量差的血液携带废物和毒素,随着毒素越积越多,血液以及血管就会发生病变,血液流经的全身各处器官也会大受影响。
数据质量管理是数据管理体系的一部分
数据管理体系中还有:
数据标准管理:
数据模型管理:
元数据管理:
主数据管理:
数据质量管理:
数据安全管理:
数据价值管理:
数据共享管理:
数据资产管理又分为数据资源化、数据资产化
数据资源化:
数据资源化通过将原始数据转变数据资源,使数据具备一定的潜在价值,是数据资产化的必要前提。
数据资源化以数据治理为工作重点,以提升数据质量、保障数据安全为目标:确保数据的准确性、一致性、时效性和完整性,
推动数据内外部流通。
数据资产化:
数据资产化通过将数据资源转变为数据资产,使数据资源的潜在价值得以充分释放。
数据资产化主要包括数据资产流通、数据资产运营、数据价值评估等活动职能
数据质量方法
数据生产加工各个环节卡点校验:
数据生产加工各个环节卡点校验部分主要包括在线系统和离线系统数据
风险点监控:
风险点监控部分主要是针对在数据日常运行过程中可能出现的数据质量和时效等问题进行监控
质量衡量:
对质量的衡量既有事前的衡量,如DQC覆盖率,又有事后的衡量, 主要用于跟进质量问题,确定质量问题原因、责任人、解决
情况等,并 用于数据质量的复盘,避免类似事件再次发生
很多刚入门的数据人,拿到数据后会立刻开始对数据进行各种探查、统计分析等,企图能立即发现数据背后隐藏的信息和知识。
然而忙活了一阵才颓然发现,并不能提炼出太多有价值的信息,白白浪费了大量的时间和精力。比如和数据打交道的过程中,可能会
出现以下的场景:
场景一:作为数据分析人员,要统计一下近 7 天用户的购买情况,结果从数仓中统计完发现,很多数据发生了重复记录,甚至有些数据
统计单位不统一。
场景二:业务看报表,发现某一天的成交 gmv 暴跌,经过排查发现,是当天的数据缺失。
造成这一情况的一个重要因素就是忽视了对数据质量的客观评估,没有制定合理的衡量标准,导致没有发现数据已出现问题。所以,
进行科学、客观的数据质量衡量标准是非常必要且十分重要的。
影响因素
影响数据质量的因素主要就技术、业务、管理三个方面,下面我们就来从这三方面分析下产生数据质量问题都有哪些原因。
1、技术方面
数据模型设计的质量问题,例如:数据库表结构、数据库约束条件、数据校验规则的设计开发不合理,造成数据录入无法校验或
校验不当,引起数据重复、不完整、不准确。
数据源存在数据质量问题,例如:有些数据是从生产系统采集过来的,在生产系统中这些数据就存在重复、不完整、不准确等
问题,而采集过程有没有对这些问题做清洗处理,这种情况也比较常见。
数据采集过程质量问题, 例如:采集点、采集频率、采集内容、映射关系等采集参数和流程设置的不正确,数据采集接口效率
低,导致的数据采集失败、数据丢失、数据映射和转换失败。
数据传输过程的问题,例如:数据接口本身存在问题、数据接口参数配置错误、网络不可靠等都会造成数据传输过程中的发生数
据质量问题。
数据装载过程的问题,例如:数据清洗规则、数据转换规则、数据装载规则配置有问题。
数据存储的质量问题,例如:数据存储设计不合理,数据的存储能力有限,人为后台调整数据,引起的数据丢失、数据无效、数
据失真、记录重复。
业务系统各自为政,烟囱式建设,系统之间的数据不一致问题严重。
2、业务方面
业务需求不清晰,例如:数据的业务描述、业务规则不清晰,导致技术无法构建出合理、正确的数据模型。
业务需求的变更,这个问题其实是对数据质量影响非常大的,需求一变,数据模型设计、数据录入、数据采集、数据传输、数据
装载、数据存储等环节都会受到影响,稍有不慎就会导致数据质量问题的发生。
业务端数据输入不规范,常见的数据录入问题,如:大小写、全半角、特殊字符等一不小心就会录错。人工录入的数据质量与录
数据的业务人员密切相关,录数据的人工作严谨、认真,数据质量就相对较好,反之就较差。
数据作假!操作人员为了提高或降低考核指标,对一些数据进行处理,使得数据真实性无法保证。
3、管理方面
认知问题。企业管理缺乏数据思维,没有认识到数据质量的重要性,重系统而轻数据,认为系统是万能的,数据质量差些也没关系。
没有明确数据归口管理部门或岗位,缺乏数据认责机制,出现数据质量问题找不到负责人。
缺乏数据规划,没有明确的数据质量目标,没有制定数据质量相关的政策和制度。
数据输入规范不统一,不同的业务部门、不同的时间、甚至在处理相同业务的时候,由于数据输入规范不同,造成数据冲突或矛盾。
缺乏有效的数据质量问题处理机制,数据质量问题从发现、指派、处理、优化没有一个统一的流程和制度支撑,数据质量问题无法
闭环。
缺乏有效的数据管控机制,对历史数据质量检查、新增数据质量校验没有明确和有效的控制措施,出现数据质量问题无法考核。
数据流传过程
数据质量管理遵循源头治理、闭环管理的原则,对数据采集 流转 加工 使用全流程进行质量校验,构建数据质量和管理
的度量指标体系
数据稽核是指实现数据的完整性和一致性检查,提升数据质量,数据稽核是一个从数据采集,预处理,比对,分析,预警,
通知,问题修复的完整数据质量管控链条。
指标体系
衡量数据质量的指标体系包括完整性、一致性、准确性、有效性、及时性等。当然不同公司的指标体系可能略有差异
1. 完整性
完整性是指数据的记录和信息是否完整,是否存在缺失的情况。数据的缺失主要包括记录的缺失和记录中某个字段信息
的缺失,两者都会造成统计结果不准确,所以说完整性是数据质量最基础的保障。比如交易中每天支付订单数都在100万笔
左右,如果某天支付订单数突然下降 到1万笔,那么很可能就是记录缺失了。对于记录中某个字段信息的缺 失,比如订单的
商品ID、卖家ID都是必然存在的,这些字段的空值个 数肯定是0, 一旦大于0就必然违背了完整性约束。
2.一致性
一致性一般体现在跨度很大的数据仓库体系中,比如数据仓库,内部有很多业务数据仓库分支,对于同一份数据,必须
保证一致性。例如用户ID,从在线业务库加工到数据仓库,再到各个消费节点, 必须都是同一种类型,长度也需要保持一致。
所以,在建设数据仓库时,才有了公共层的加工,以确保数据的一致性。
3. 准确性
准确性是指数据中记录的信息和数据是否准确,是否存在异常或者错误的信息。比如一笔订单如果出现确认收货金额为
负值,或者下单时间在公司成立之前,或者订单没有买家信息等,这些必然都是有问题的。 如何确保记录的准确性,也是
保障数据质量必不可少的一个原则。
4.及时性
在确保数据的完整性、准确性和一致性后,接下来就要保障数据能够及时产出,这样才能体现数据的价值。一般决策支持
分析师都希望当 天就能够看到前一天的数据,而不是等三五天才能看到某一个数据分析 结果;否则就已经失去了数据及时性
的价值,分析工作变得毫无意义。 现在对时间要求更高了,越来越多的应用都希望数据是小时级别或者实 时级别的。 及时性
同样是保障数据质量的一个重要原则。
5.有效性
有效性一般指范围有效性、日期有效性、形式有效性等主要体现在数据记录的规范和数据是否符合逻辑。规范指的是,一
项数据存在它特定的格式,如:手机号码一定是11位的数字;逻辑指的是,多项数据间存在着固定的逻辑关系,如:PV一定
是大于等于UV的。
数据质量监控的设计可以分为4个模块:数据,规则,告警和反馈
①数据:需要被监控的数据,可能存放在不同的存储引擎中
②规则:值如何设计发现异常的规则,一般而言主要是数值的异常和环比等异常监控方式。也会有一些通过算法来发掘,异常
数据的方法
③告警:告警是指发告警的动作,这里可以通过微信消息,电话或者短信,邮件
④反馈:反馈是指对告警内容的反馈,比如说收到的告警内容,要有人员回应该告警消息是否是真的异常,是否需要忽略该异常,
是否已经处理了该异常。有了反馈机制,整个数据监控才能形成闭环
实现的方式
Shell+sql
帆软
Apache Griffin
平台中数据质量监控主要使用DQC,时效性监控主要使用摩萨德
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。