赞
踩
数据资产的价值发掘依赖于有序、完整和高质量的数据,数据治理则是保障数据质量和实现数据价值的基础。
数据治理的背景是由于公司战略政策和业务日益变大的数据需求和要求所产生的。原有的模式已不能带动业务的增长,需要通过数据手段赋能新的业务增长点,而业务对数据也提出了准确性、及时性等要求,从而产生了数据治理项目的启动。
数据治理这项工作一直都是存在的,与数据库设计的三范式一样都是为了数据的管理。数据治理是一整套完整的组织、制度、技术管理行为。
(非严格定义)数据治理是指从使用零散数据变为使用统一数据、从具有很少或没有组织流程到企业范围内的综合数据管控、从数据混乱状况到数据井井有条的一个过程。
数据治理强调的是一个从混乱到有序的过程。从范围来讲,数据治理涵盖了从前端业务系统、后端业务数据库再到业务终端的数据分析,从源头到终端再回到源头,形成的一个闭环负反馈系统。从目的来讲,数据治理就是要对数据的获取、处理和使用进行监督管理。
具体来说,数据治理就是以服务组织战略目标为基本原则,通过组织成员的协同努力,流程制度的制定,以及数据资产的梳理、采集清洗、结构化存储、可视化管理和多维度分析,实现数据资产价值获取、业务模式创新和经营风险控制的过程。
所以,数据治理是一个逐步实现数据价值的过程,是一种持续性的服务而不是有明确范围的一锤子买卖。
数据治理的对象包括数据、开发流程、管理流程、制度、组织。只要与目标相关联的,都可以算作治理的对象。数据治理就是将关联方通过一套完整的管理行为,形成有序的工作以达成目标。
当前,企业变革已经成为企业适应剧烈变化的市场环境、实现长期发展的必经之路。然而,过去为组织带来工作效率提升的烟囱式孤岛式的业务系统已经成为组织变革重组的阻力,这也是从数据层面打通各个组织单元、实现业务单元快速重组的阻力,这也是从数据层面打通各个组织单元、实现业务单元快速重组的最根本的需求来源。
企业实施数据治理的根本原因如下:
1、经过多年的信息化建设,企业和政府部门都围绕着业务需求建设了众多的业务系统,导致数据的种类和数量大量增加。但是在使用数据时,面对的困难重重。
2、因为各个业务系统都是围绕着业务需求来建设的,当业务环境发生变化时,原来的业务系统不能互联互通,不能满足跨部门、跨职能、跨组织的协作需求。
3、各个业务系统所产生的海量数据以复杂而分散的形式存储,导致数据之间的不一致和冲突等问题,从而导致数据在应用过程中的无所适从,难以实现数据的深度利用,从而难以实现业务模式创新和经营风险控制。
从组织职能和体量大小方面来看,不同类型组织的数据治理目标大不相同,如:
1、集团企业总部和政府大数据管理局的目标是:制定数据政策、保障数据安全、促进数据在组织内无障碍共享,其重点目标是推进和保障数据战略的顺利实施;
2、企业和政府业务部门的目标是:通过提升信息管理能力,提升组织精细化管理水平,提高业务运营效率,增强组织决策能力和核心竞争力,从而为实现组织战略目标提供能力支撑,其重点目标是数据价值获取、业务模式创新和经营风险控制。
数据治理框架如下:
目前总结的数据治理领域包括但不限于:组织建设、数据安全、数据开发、数据质量、元数据管理、数据价值、数据标准、数据模型、数据分布、数据存储、数据交换、数据生命周期管理以及数据共享服务。每一个数据治理的领域都可以作为一个独立方向进行研究治理。
同时各领域之间需要有机结合,如数据标准、元数据、数据质量等几个领域相互协同和依赖。通过数据标准的管理,可以提升数据合法性、合规性,进一步提升数据质量,减少数据生产问题;在元数据管理的基础上,可进行数据生命周期管理,有效控制在线数据规模,提高生产数据访问效率,减少系统资源浪费;通过元数据和数据模型管理,将表、文件等数据资源按主题进行分类,可明确当事人、产品、协议等相关数据的主数据源归属、数据分布情况,有效实施数据分布的规划和治理。
数据治理领域是随着银行业务发展而不断变化的,领域之间的关系也需要不断深入挖掘,最终形成一个相互协同与验证的领域网,全方位的提升数据治理成效。
元数据可分为三类:
1.业务元数据是定义和业务相关数据的信息,用于辅助定位、理解及访问业务信息,从业务的视角去描述数据,让不懂数据的人可以快速读懂数据。如:业务指标、业务规则、数据质量规则、专业术语、数据标准、概念数据模型、实体/属性、逻辑数据模型等;
2.技术元数据是从技术的角度去描述数据。可分为结构性技术元数据和关联性技术元数据。结构性技术元数据提供了在信息技术的基础架构中对数据的说明,如数据的存放位置、数据的存储类型、数据的血缘关系等。关联性技术元数据描述了数据之间的关联和数据在信息技术环境之中的流转情况,如技术规则、数据质量规则技术描述、字段、衍生字段等。技术元数据一般以已有的业务元数据作为参考设计的;
3.操作元数据是指与元数据管理相关的组织、岗位、职责、流程以及系统日常运行产生的操作数据。操作元数据管理的内容主要包括:与元数据管理相关的组织、岗位、职责、流程、项目、版本以及系统生产运行中的操作记录,如运行记录、应用程序、运行作业。
元数据的管理包含:
1.血缘分析:对元数据的上下游进行分析。
2.数据生命周期:数据都存在生命周期,当元数据访问量变低,数据价值不存在的时候,可将它下线清除,释放存储空间。
商业银行的重要且敏感数据大部分集中在应用系统中,例如客户的联络信息、资产信息等,如果不慎泄露,不仅给客户带来损失,也会给商业银行带来不利的声誉影响,因此数据安全在数据管理和治理过程中的相当重要的。
数据安全主要是对数据的安全脱敏管控和安全检查,脱敏机制有两种方案:
1.在数据仓库的接入和输出进行脱敏管控:数据接入识别敏感信息,通过脱敏工具进行脱敏处理,产生脱敏表和敏感表(两张表之间要有映射关系)。敏感数据不对中间层开放,对于数据仓库中间层则只有脱敏表,开发和测试的时候也只能使用脱敏表。在数据输出层,首先应用层的开发先对敏感数据进行申请,申请通过后得到敏感表的使用权,开发通过映射关系将敏感表和脱敏数据进行关联处理。这种方案的好处是:安全易管控,脱敏过程少,但会增加开发的工作量。
2.针对用户进行脱敏管理,数据仓库的每一层都需要对敏感数据进行脱敏处理,对于敏感数据申请权限的用户可以查看敏感信息,没有权限的用户只能查看脱敏表。这种脱敏机制好处在于对开发没什么影响,但是加大安全管理的复杂度,需要全域扫描敏感信息,脱敏工作量大。
数据质量管理已经成为银行数据管理的有机组成部分。高质量的数据是商业银行进行分析决策、业务发展规划的重要基础,只有建立完整的数据质量体系,才能有效提升银行数据整体质量,从而更好地为客户服务,提供更为精准的决策分析数据。
从技术层面上,应该完整全面地定义数据质量的评估标准,包括完整性、时效性等,按照已定义的维度,在系统建设的各个阶段都应该根据标准进行数据质量检测和规范,及时进行治理,避免事后的清洗工作。
明确相应的管理流程。数据质量问题会发生在各个阶段,因此需要明确各个阶段的数据质量管理流程。如,在需求和设计阶段就需要对明确数据质量的规则定义,从而指导数据结构和程序逻辑的设计;在开发和测试阶段则需要对前面提到的规则进行验证,确保相应的规则能够生效;最后在投产后要有相应的检查,从而将数据质量问题尽可能消灭在萌芽状态。数据质量管理措施,宜采用控制增量、消灭存量的策略,有效控制增量,不断消除存量。
数据质量的提升通常包含以下几个方面:
1.数据质量评估:提供数据质量评估能力,如数据一致性、完整性、正确性、合规性、及时性等,对数据进行全面检查;
2.数据质量检查:提供可配置化的检查规则,通过脚本定时调度执行;
3.数据质量监控:提供报警规则,根据配置检查规则的阀值,对超出阈值的情况进行不同程级的警告和通知;
4.问题处理机制:对数据问题按照流程进行处理,规范问题处理机制和步骤,强化问题认证,提高数据质量;
5.根据血缘关系和业务场景锁定高价值数据,进行高安全级别的管控,避免数据出错。
数据治理最重要的产出物,通过数据治理能为业务带来的业务价值。对于不同的【看数据角色】定义不同的价值,对于数据业务分析人员,通过数据标准化管理和平台搭建,让不懂数据的人员能够快速掌握数据,并且自己可以进行数据挖掘、数据分析等工作。
对于高层领导,将公司的业务数据以报告的形式,让领导快速了解数据的成本及分布情况。不同的公司侧重的价值会不一样,数据治理同时也能有效地控制数据成本,减少因为数据带来的摩擦,提升数据质量和安全。
对数据开发进行标准的流程管理是数据治理核心的一部分,首先根据公司实际情况分析,制定可落地的数据开发管理规范。过于复杂的数据开发规范维护成本高,同时也加重了开发工作量,导致难以执行。过于简单的规范又无法很好的管理开发流程。最主要的还是定制好规范后让各关联方进行评审,从可落地、可管理的角度去评估规范。
当规范制定好后,就按照规范进行落地执行,通常数据开发规范包含:数据建模、数据设计、数据项目部署和实施。
数据建模是一种分析和设计方法,用于【定义和分析数据需求】与【设计满足需求的数据结构】。
数据组织是保障数据治理能够长期有效的重要手段之一,通常数据组织都是可以跨职责的,组织的职能和分类如下:
1.数据治理委员会,在公司内部拥有数据的最高决策权,代表了企业的高层视角;
2.数据管理指导委员会,为数据治理委员会提供支持,针对一些具体数据管理措施起草相关政策和标准,供委员会评审和批准;
3.数据管理制度团队,在某个业务领域内,协助完成数据制度管理的数据管理专员小组。数据管理制度团队来自不同的部门和跨业务领域的数据专家。
数据模型是数据治理中的重要部分,合适、合理、合规的数据模型,能够有效提高数据的合理分布和使用,它包括概念模型、逻辑数据模型和物理数据模型,是数据治理的关键、重点。数据模型包括三个部分:数据结构、数据操作、数据约束:
1、数据结构。数据模型中的数据结构主要用来描述数据的类型、内容、性质以及数据间的联系等。数据结构是数据模型的基础,数据操作和数据约束都基本是建立在数据结构之上的。不同的数据结构有不同的操作和约束。
2、数据操作。数据模型中的数据操作主要用来描述在相应的数据结构上的操作类型和操作方式。
3、数据约束。数据模型中的数据约束主要用来描述数据结构内数据间的语法、词义链系、数据之间的制约和依存关系,以及数据动态变化的规则,以保证数据的正确、有效和相容。
数据标准是银行建立的一套符合自身实际,涵盖定义、应用、操作多层次数据的标准化体系。它包括基础标准和指标标准(或称应用标准)。与数据治理其他核心领域具有一定的交叉,如元数据标准、数据交换和传输标准、数据质量标准等。商业银行的数据标准一般以业界的标准为基础,如国际标准、监管机构(如国家统计局、中国人民银行、工信部)指定的标准,结合商业银行本身的实际情况对数据进行规范化,一般会包括格式、编码规则、字典值等内容。良好的数据标准体系有助于商业银行数据的共享、交互和应用,可以减少不同系统间数据转换的工作。数据标准主要由业务定义、技术定义和管理信息三部分构成:
1、业务定义。业务定义主要是明确标准所属的业务主题以及标准的业务概念,包括业务使用上的规则以及标准的相关来源等。对于代码类标准,还会进一步明确编码规则以及相关的代码内容,以达到代码统一、口径统一、名称统一、参照统一以及来源统一的目的,进而形成一套一致、规范、开放和共享的业务标准数据。
2、技术定义。技术定义是指描述数据类型、数据格式、数据长度等技术属性。从而能对信息系统的建设和使用提供指导和约束。
3、管理信息。管理信息是指明确准准的所有者、管理人员、使用部门等内容,从而使数据标准的管理和维护工作有明确的责任主体,以保障数据标准能够持续的进行更新和改进。
任何事物都具有一定的生命周期,数据也一样。从数据的产生、使用、加工乃至消亡都应该有一个科学的管理方法,将极少或者不再使用的数据从系统中剥离出来,并通过核实的存储设备进行保留,不仅能够提高系统的运行效率,更好的服务客户,还能大幅度减少因为数据长期保存带来的储存成本。数据生命周期一般包含在线阶段、归档阶段(可进一步划分为在线归档阶段和离线归档阶段)、销毁阶段三大阶段,管理内容包括建立合理的数据类别,针对不同类型的数据制定各个阶段的保留时间、存储介质、清理规则和方式、注意事项等。
数据分布和存储主要涵盖了数据如何划分和存储,总行(读音为hang)数据以及总分行(读音为hang)数据如何分布,主数据以及参考数据(也成为副本数据或辅数据)如何管理。只有对数据进行合理的分布和存储,才能有效地提高数据的共享程度,才能尽可能地减少数据冗余带来的存储成本。
综合数据规模、使用频率、使用特性、服务时效等因素,从存储体系角度,可以将商业银行的数据存储划分为四类:
1、交易型数据区。包括渠道接入、交互控制、业务处理、决策支持与管理等各类联机应用数据;存储客户自助或与银行操作人员在业务交互办理过程中产生的原始数据的存储,包括业务处理数据,内部管理数据和一些外部数据,其存储的是当前状态数据。
2、集成型数据区。包括操作型数据和数据仓库型数据。
3、分析型数据区。包括主要用于决策支持与管理的各类集市应用的数据。为了对业务执行情况进行深入分析,需要对原始数据进行进一步汇总统计分析,统计分析结果用于最终的决策展示,因此分析型数据区存储了这些统计、分析模型结构的指标数据。
4、历史型数据区。这里存储了所有近线应用、归档应用、外部审计数据平台应用等数据,主要满足各种历史数据归档后的数据保管和数据查询服务。
数据交换是银行进行数据交互和共享的基础,合理的数据交换体系有利于银行提高数据共享程度和数据流转时效。一般商业银行会对系统间数据的交换规则制定一些原则,比如对接口、文件的命名、内容进行明确,规范系统间、银行系统与外部机构间的数据交换规则,指导数据交换工作有序进行。建立统一的数据交换系统,一方面可以提高数据共享的时效性,另一方面也可以精确掌握数据的流向。
数据的管理和治理是为了更好的利用数据,是数据应用的基础。银行应该以数据为根本,以业务为导向,通过对大数据的集中、整合、挖掘和共享,实现对多样化、海量数据的快速处理及价值挖掘,利用大数据技术支持产品快速创新,提升以客户为中心的精准营销和差异化客户服务能力,增强风险防控实时性、前瞻性和系统性,推动业务管理向信息化、精细化转型,全面支持信息化银行的建设。
1.建立结构化数据处理分析平台。数据仓库建设能够实现企业异构数据的集成,企业按照分析主题重组数据,建立面向全行的一致的信息视图。
2.数据资产视图。在建立了数据仓库之后,需要建立统一的分析和可视化平台,解决数据在哪里,数据怎么用的问题。
数据治理既是技术问题也是管理问题。如项目管理系统只是一个工具,如何让项目管理工具与项目管理思想相匹配才是项目管理系统实施过程中的最大挑,也才能发挥最大的效果。数据治理也是一样。组织信息化建设正从以应用为中心向以数据为中心转变的关键时期,组织也逐步认识到数据的巨大价值,但是低质量的数据和复杂的数据应用手段让数据价值发掘的效果大大降低,甚至会让组织决策层丧失数字化转型的信心。
如果在项目实施的初期能辨识出影响项目实施效果的困难,并找到相应的解决方法,就显得异常重要。下面是常见的数据治理问题:
1、跨组织的沟通协调问题。数据治理是一个组织的全局性项目,需要IT部门与业务部门的倾力支持,需要各个部门站在组织战略目标和组织长远发展的视角来看待数据治理。因此,数据治理项目需要得到组织高层的支持,在允许的情况下,成立以组织高层牵头的虚拟项目小组,这样会让数据治理项目事半功倍。
2、投资决策的困难。组织的投资决策以能够产生可预期的建设成效为前提,但往往综合性的数据治理的成效并不能立马体现,数据治理更像一个基础设施,是以支撑组织战略和长期发展为目标,所以导致此类项目无法界定明确的边界和目标,从而难以作出明确的投资决策。
3、工作的持续推进。数据治理是以支撑组织战略和长远发展为目标,应不断吸收新的数据来源,持续追踪数据问题并不断改进,所以数据治理工作不应当是一蹴而就的,应当建立长效的数据改进机制,并在有条件的情况下,自建数据治理团队。
上图为国标 GB/T 34960 的数据治理框架。
1、顶层设计是数据治理实施的基础,是根据组织当前的业务现状、信息化现状和数据现状,来设定组织的职权,并定义符合组织战略目标的数据治理目标和可行的行动路径。
2、数据治理环境是数据治理成功实施的保障,指的是分析领导层、管理层、执行层等利益相关方的需求,识别项目支持力量和阻力,制定相关制度以确保项目的顺利推进。
3、数据治理域是数据治理的相关管理制度,是指指定数据质量、数据安全、数据管理体系等相关标准制度,并基于数据价值目标构建数据共享体系、数据服务体系和数据分析体系。
4、数据治理过程就是一个PDCA(plan-do-check-act)的过程,是数据治理的实际落地过程,包含确定数据治理目标、制定数据治理计划、执行业务梳理、设计数据架构、数据采集清洗、存储核心数据、实施元数据管理和血缘追踪,并检查治理结果与治理目标的匹配程度。
从技术实施角度看,数据治理包含“理-采-存-管-用”这五个步骤,即业务和数据资源梳理、数据采集清洗、数据库和存储、数据管理、数据使用。
数据资源整理:数据治理的第一个步骤是从业务的视角厘清组织的数据资源环境和数据资源清单,包含组织机构、业务事项、信息系统,以及以数据库、网页、文件和API接口形式存在的数据项资源,本步骤的输出物为分门别类的数据资源清单。
数据采集清洗:通过可视化的ETL工具(如阿里的DataX)将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,目的是将散落和零乱的数据集中存储起来。
基础库主题库建设:一般可以将数据分为基础数据、业务主体数据和分析数据。基础数据一般指的是核心实体数据,或称主数据,例如智慧城市中的人口、法人、电子证照等数据。主题数据一般指的是某个业务主体数据,例如市场监督管理局的食品监管、质量监督检查、企业综合监管等数据。而分析数据指的是基于业务主题数据综合分析而得的分析结果数据,例如市场监督管理局的企业综合评价、产业区域分布、高危企业分布等。那么基础库和主题库的建设就是在对业务理解的基础上,基于易存储、易管理、易使用的原则抽象数据存储结构,简单来说,就是基于一定的原则设计数据库表结构,然后再根据数据资源清单设计数据采集清洗流程,将整洁干净的数据存储到数据库或数据仓库中。
元数据管理:元数据管理是对基础库和主题库中的数据项属性的管理,同时,将数据项的业务含义与数据项进行了关联,便于业务人员也能够理解数据库中的数据字段含义 ,并且,元数据是后面提到的自动化数据共享、数据交换和商业智能的基础。需要注意的是,元数据管理一般是对基础库和主题库中(即核心数据资产)的数据项属性的管理,而数据资源清单是对各类数据来源的数据项的管理。
血缘追踪:数据被业务场景使用时,如果发现了数据错误,数据治理团队需要快速定位数据来源,修复数据错误。数据治理团队还需要知道业务团队的数据来自于哪个核心库,核心库的数据来源于哪个数据源头。经验是在元数据和数据资源清单之间建立关联关系,且业务团队使用的数据项由元数据组合配置而来。这样就建立了数据使用场景与数据源头之间的血缘关系。
数据资源目录:数据资源目录一般应用于数据共享的场景,例如政府部门之间的数据共享,数据资源目录是基于业务场景和行业规范而创建,同时依托于元数据和基础库主题而实现自动化的数据申请和使用。
质量管理:数据价值的成功发掘必须依托于高质量的数据,唯有准确、完整、一致的数据才有使用价值。因此,需要从多维度来分析数据的质量,如:偏移量、非空检查、值域检查、规范性检查等。优秀的数据质量模型的设计必须依赖于对业务的深刻理解,在技术上也推荐使用大数据相关技术来保障检测性能和降低对业务系统的性能影响,如Hadoop,MapReduce等。
商业智能(BI):数据治理的目的是使用数据。对于一个大型的数据仓库来说,数据使用的场景和需求是多变的,可以使用商业智能类的产品快速获取需要的数据,并分析形成报表,较为知名的产品有:Microsoft Power BI,QlikView,帆软等。
数据共享交换:数据共享包括组织内部和组织之间的数据共享,共享方式也分为库表、文件和API接口三种共享方式。库表共享比较直接,文件共享通过ETL(抽取extract-转换transform-加载load)工具做一个反向的数据交换就可以实现。推荐使用API接口共享方式,在这种方式下,能够让中心数据仓库保留数据所有权,把数据使用权通过API接口的方式进行了转移。API接口共享可以使用API网关实现,常见的功能是自动化的接口生成、申请审核、限流、限并发、多用户隔离、调用统计、调用审计、黑白名单、调用监控、质量监控等等。
数据治理不是一个临时性的运动,从银行业务发展、数据治理意识形成、数据治理体系运行的角度,需要一个长效机制来进行保证。在大数据时代,经过数据治理的银行数据可以发挥更大的作用。
1.利用大数据挖掘技术分析各类海量信息,发现市场热点与需求,实现产品创新服务。 可将大数据应用到产品生命周期,深入挖掘客户需求,把握客户痛点,推动产品创新。利用大数据技术对社交网络信息、在线客户评论、博客、呼叫中心服务工单、用户体验反馈等信息进行深度挖掘和分析,充分洞察用户,分析客户的情绪,了解客户对产品的想法,获知客户需求的变化趋势,从而对现有产品进行及时的调整和创新,贴近客户的生活场景和使用习惯。基于大数据创新产品评价方法,为产品创新提供数据支撑。通过大数据分析,改变目前以规模、总量为主的业务评价方式,建立一整套完整的以质量、结构为主的全新的评价方式,以引导全行真正追求有质量、有效益的发展。
2.加强内外部信息联动,重点利用外部信息提升银行风险防控能力。进一步加强与税务、海关、法院、电力部门、水务部门、房产交易登记登记中心、环保部门以及第三方合作机构的数据互联共享,有效拓宽信息来源渠道,深度挖掘整合系统内外客户信息、关联关系、交易行为、交易习惯、上下游交易对手、资金周转频率等数据信息,利用大数据技术查找与分析不同数据变量间的关联关系,并建立相应的决策模型,提升银行风险防控能力。
3.利用大数据技术提升经营管理水平,优化业务流程,实现精细化经营决策
1.【有关数据治理的本质及实践,看这一篇就够了】-苏槐
2.【谈谈数据治理是什么?】-木子姐
3.【数据治理怎么做?这篇万字长文终于讲清楚了!】-数据工程师金牛
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。