赞
踩
Apache Doris 代码仓库地址:apache/incubator-doris 欢迎大家关注加星
如何更加合理、高效的监控每类作业的运行状态,并将原本分散、孤岛式的监控日志信息通过规则引擎集中共享、关联、处理;洞察关键信息,形成事前预判、事中监控、事后跟踪的质量管理闭环流程;沉淀故障问题,搭建解决方案的知识库体系。在数据质量监管平台的规划建设中,面临如下挑战:
围绕完整性、准确性、一致性、及时性监控分析数据质量问题、提升企业数据质量。 从数据接入、数据加工、数据导出、指标、数据应用实现全链路血缘跟踪、提前预判数据是否能够准时产出、了解任务失败后影响分析以及快速地修复。做到事前控制,事中处理,事后追踪。
事前(规则丰富多样):
事中(数据流程监控):
事后(数据质量溯源):
数据质量关键流程步骤:
数据质量检验标准:
第一阶段要完成的工作:
首先完成业务数据库的数据接入数据质量,从源头上保障接入数据的质量问题。在这一阶段其实我们是在做接入的ETL,基于技术规则和业务规则进行对数据进行数据清洗,转换加工,对于不符合数据规则的数据进行过滤处理,统一记录以便于后续的手动处理这也数据和反馈给业务系统进行处理。
提供统一的数据质量看板,快速了解每天数据质量问题及趋势。并能及时进行追踪处理
提供规则的可视化定义,试跑,发布,异常数据处理,规则模板管理等
规则定义
数据接入任务监控
异常数据监控
任务流程监控
这里我们是集成海豚调度,所有的任务都是在这里定义和运行,做到统一监控
对于数仓内部的数据质量,目前只是做了任务作业监控及预警,及时发现和定位问题,然后有数据开发及分析人员介入进行手动处理和解决问题。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。