赞
踩
参考《一本书讲透数据治理》、《数据治理》等
笔者自我理解就是:对数据进行任何规整处理,包括从数据从业务系统接入到最后被业务系统查询应用的这其中整个过程,都是数据治理。
然而,不同数据团队或者不同企业对数据治理的理解和定义却不尽相同
可以理解为与企业战略相关、指导企业数字化转型的策略
DAMA(国际数据管理协会):数据治理是对数据资产管理行使权力和控制的活动集合
DGI(国际数据治理研究所):数据治理是通过一系列与信息相关的过程来实现决策权和职责分工的系统,这些过程按照达成共识的模型来执行,该模型描述了谁(who)能根据什么信息,在什么时间(when)和情况(where)下,用什么方法(How),采取什么行动(what)
数据元:用一组属性描述定义、标识、表示和允许值的数据单元。数据元由对象、特性、表示三部分组成。数据元是组成实体数据的最小单元,或叫原子数据。
元数据:描述数据的数据或关于数据的结构化数据。元数据是数据治理中的核心要素,是构建数仓的基础,是构建企业数据资源全景视图的基础,清晰的学院分析、影响分析、差异分析、关联分析、指标一致性分析等是数据资产管理的重要一环。
主数据:是企业内需要在多个部门、多个信息系统之间共享的数据(如客户、供应商、人员、物料),主数据不同于记录活动的数据,它变化较慢。主数据是企业开展业务的基础,只有得到正确的维护们才能保证业务系统的参照完整性。
业务数据:业务数据是业务活动过程中的产生的既定事实数据。业务数据来自多个方面:业务交易过程中产生的数据(计划单、销售单、生产单)、系统产生的数据(软硬件运行情况、应用使用状况等)、自动化设备产生的数据
主题数据:根据数据分析需要,按照业务主题对数据所作的一种组织和管理的方式,本质是为了进行面向主题的分析或加速主题应用的数据。主题数据一般是汇总的、不可更新的、用于读的数据
数据仓库:DataWarehouse DW。面向主题、集成的、相对稳定、反应历史变化的数据集合。可以理解为是为满足新需求而设计的一种新数据库,需要可以容纳更大数据集
数据湖:wiki的定义:数据湖是一个以原始格式存储数据的存储库或系统。(结构化-数据库表、半结构化(CSV、日志、XML、JSON)、非结构化数据(电子邮件、PDF)、二进制数据(图片、音频、视频等))
个人理解:数据湖可以更方便、以更低成本解决不同数据结构的统一存储问题,同时还可以为机器学习提供全局数据。也可以理解为数据湖是一个融合了大数据集成、存储、处理、机器学习、数据挖掘的解决方案。
作用:这里主要是与数据仓库的作用对比
特性 | 数仓 | 数据湖 |
---|---|---|
数据 | 来自事务系统、运营数据和业务系统的关系数据 | 来自Iot设备、网站、移动应用程序、社交媒体和企业应用程序的非关系和关系数据 |
Schema | 设计在数据仓库实施之前(写入型Schema) | 写入在分析时(读取型Schema) |
性价比 | 更快的查询结果带来较高的存储成本 | 更快查询结果只需要较低存储成本 |
数据质量 | 可作为重要事实依据的高度监管数据 | 任何可hi或无法进行监管的数据(例如原始数据) |
用户 | 业务分析师 | 数据科学家、数据开发人员和业务分析师 |
分析 | 批处理报告、BI、可视化 | 机器学习、预测分析、数据发现和分析 |
举例:数据湖不是一个产品或工具,是一套完整数据解决方案。
数据湖的出现给数据治理带来了一定的挑战,数据湖将数据全部集中存储,那数据治理是在湖中还是湖外,这个是需要企业研究和探索的问题。
北大教授说:数据治理不是对数据治理,而是对数据资产治理,是对数据资产所有利益相关方的协调与规范。
我们从这里开始理解
数据治理,是一个非常复杂的系统工程:
- 管理上:数据治理是企业战略层面的策略而非战术层面
- 业务上:通过数据治理要让数据能够管的住、看得见、找得到、用的好
- 技术上:涉及数据建模、数据集成、数据交换、数据清洗、数据处理、数据质量管理方方面面
由于国内各行业企业数据治理发展情况并不均衡,大致对企业数据治理现状可以分为以下3类:
虽然我国多数企业仍然处于中期的数据集成阶段,但是在云计算、大数据等新技术的推动下,很多企业开始迈开步伐,已经走进以数据管理为标志的数字化时代
本文内容较为宽泛,统筹的让自己对数据治理的概念有了一个初步的了解。
数据作为数字近几个时代的新型生产要素,是企业的重要资产。没有高效的数据治理,何来有价值的生产要素?企业拥有了数据并不代表拥有了数据资产,而数据治理是实现数据资源向数据资产转化的过程。
毋庸置疑,数据治理将变得越来越重要!!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。