当前位置:   article > 正文

DAMA-DMBOK2重点知识整理CDGA/CDGP——第11章 数据仓库和商务智能_数据仓库建设方案 dmbok

数据仓库建设方案 dmbok

目录

一、分值分布

二、重点知识梳理

1、引言

1.1 业务驱动因素

1.2 目标和原则

1.3 基本概念

2、活动

2.1 理解需求

2.2 定义和维护数据仓库/商务智能架构

2.3 开发数据仓库和数据集市

2.4 加载数据仓库

2.5 实施商务智能产品组合

2.6 维护数据产品

3、工具

4、方法

5、实施指南

5.1 就绪评估/风险评估

5.2 版本路线图

5.3 组织和文化变革

6、数据仓库/商务智能治理


一、分值分布

        CDGA:10分(10单选)

        CDGP:10分(设计题)

                考点:

                        业务驱动、目标和原则;

                        基本概念;

                        实施活动;

                        技术和工具;

二、重点知识梳理

1、引言

语境关系图:

数据仓库(Data Warehouse,DW):始于 20 世纪 80 年代,发展于 20 世纪 90 年代,后与商务智能(Business Inteligence,BI)作为业务决策主要驱动力协同发展。赋能组织将不同来源的数据整合到公共的数据模型,整合后的数据能为业务运营提供洞察,为企业决策支持和创造组织价值开辟新的可能性。减少数据冗余,提高信息一致性,让企业能够利用数据做出更优决策的方法。 数据仓库是企业数据管理的核心

1.1 业务驱动因素

  1. 运营支持职能
  2. 合规需求:历史数据响应
  3. 商务智能活动:不是所有的商务智能都依赖数据仓库
  4. 提供洞察、提升效率、增强竞争优势。

1.2 目标和原则

数据仓库的建设目标

  • 1)支持商务智能活动。
  • 2)赋能商业分析和高效决策。
  • 3)基于数据洞察寻找创新方法。

数据仓库建设应遵循原则

  • 1)聚焦业务目标。用于最优级的业务并解决它。
  • 2)以终为始。以业务优先级和最终成果驱动仓库创建。
  • 3)全局性的思考和设计,局部性的行动和建设。
  • 4)总结并持续优化,而不是一开始就这样做。
  • 5)提升透明度和自助服务
  • 6)与数据仓库一起建立元数据。DW的成功关键是能准确解释数据。
  • 7)协同。与其他数据活动协作,尤其是数据治理、数据质量和元数据管理活动。
  • 8)不要千篇一律。为每种数据消费者提供正确的工具和产品。

1.3 基本概念

商务智能

  • 第一层含义,商务智能指的是一种理解组织诉求和寻找机会的数据分析活动。数据分析的结果用来提高组织决策的成功率。
  • 第二层含义,商务智能指的是支持这类数据分析活动的技术集合。

数据仓库:一个集成的决策支持数据库和与之相关的用于收集、清理、转换和存储来自各种操作 和外部源数据的软件程序。数据集市是数据仓库中数据子集的副本。从广义上讲,数据仓库包括为任何支持商务智能目标的实现提供数据的数据存储或提供操作。

数据仓库建设:数据仓库中数据的抽取、清洗、转换、控制、加载等操作过程。数据仓库建设流 程的重点是通过强制业务规则、维护适当的业务数据关系,在运营的数据上实现一个集成的、历 史的业务环境。还包括与元数据资料库交互的流程。传统意义上建设主要关注结构化数据,现在 也包含半结构化数据和非结构化数据。

数据仓库建设的方法:两位思想领袖比尔·恩门(Bill Inmon)拉尔夫·金博尔( Ralph Kimball)分别使用范式建模和多维建模来完成数据仓库建模

  • 比尔·恩门在《数据仓库》(Building the Data Warehouse )中定义:数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合
  • 拉尔夫·金博尔在《数据仓库工具箱》(The DataWarehouse Toolkit) 中提出:主张自下而上(DMDW)的方式,力推数据集市建设,他定义为“为查询和分析定制的交易数据的副本,通常称作多为模型
  • Inmon和Kimball相似的核心理念
    • 1)数据源于其他系统。
    • 2)以提升数据价值的方式整合数据。
    • 3)便于数据被访问和分析。
    • 4)都为了让授权的利益相关方访问到可靠的、集成的数据。
    • 5)建设目的涵盖工作流支持、运营管理和预测分析

企业信息工厂(Inmon):

  • 企业信息工厂(Corporate Information Factory,CIF)
    • 与业务系统的区别:
      • 1)面向主题的。不关注功能或应用。
      • 2)整合的。统一的、内聚的。
      • 3)随时间变化的。存储的是某个时间段的数据。
      • 4)稳定的。数据不频繁更新,新数据加到老数据后。一组记录可代表交易的不同状态。
      • 5)聚合数据和明细数据。即有原子的交易明细,也有汇总后的数据。
      • 6)历史的。当前的/历史的。
    • 企业信息工厂(Inmon)组成:
      • 1)应用程序。
      • 2)数据暂存区 。
      • 3)集成和转换。
      • 4)操作型数据存储 (ODS)。
      • 5)数据集市。
      • 6)操作型数据集市(OpDM)。操作型数据集市是专注于运营决策支持的数据集市。直接从操作型数据存储而不是从数据仓库获取数据,具有与操作型数据存储相同 的特性:包含当前或近期的数据,这些数据是经常变化的。
      • 7)数据仓库。单向流向数据集市。 
      • 8)运营报告。运营报告从数据存储中输出。
      • 9)参考数据、主数据和外部数据。
    • 业务系统到数据集市,数据流动过程的变化:
      • 1)目标从业务功能的执行转向数据分析
      • 2)系统最终用户从一线业务人员变成企业决策者
      • 3)系统使用从固定操作转向即席查询。
      • 4)响应时间的要求不再重要 (战略决策分析比例行操作需要花更多的时间)。
      • 5)每个操作、查询或流程涉及更多数据
    • 数据仓库和数据集市的数据与应用程序中的数据不同:
      • 1)数据的组织形式是按主题域而不是按功能需要
      • 2)数据是整合的数据,而不是“孤立”的烟囱数据
      • 3)数据是随时间变化的系列数据,而非仅当前时间的值
      • 4)数据在数据仓库中的延迟比在应用程序中高
      • 5)数据仓库中提供的历史数据比应用程序中提供的历史数据多

多维数据仓库(Kimball)

  • 专为查询和分析而构建的事务数据的副本,它不是以实体关系模型的规范化要求组织的。多维模型通常称为星型模型,由事实表(包含有关业务流程的定量数据, 如销售数据)和维度表(存储与事实表数据相关的描述性属性,为数据消费者解答关于事实表的问题,如这个季度产品X卖了多少)组成。多事实表通过“总线“共享公共的维度或遵循一致性的维度。事实表与许多维表关联,整个图看上去像星星一样。
  • 组件
    • 1)业务源系统
    • 2)数据暂存区域
    • 3)数据展示区域
    • 4)数据访问工具
  • 数据仓库的总线矩阵:展示的是生成事实数据的业务流程和表示维度的数据主题域的交汇。独立于技术,用于表示数据仓库/BI系统长期数据的内容需求,帮助组织确定可管理的开发工作范围

数据仓库的架构组件:一系列组织起来以满足企业需求的架构组件。大数据方案一般会先加载数据,再处理,即 ELT

  • 组件:
    • 源系统
    • 数据集成:
      • 数据集成包括抽取、转换和加载 (此三者英文首字母缩写为 E、T、L,通常直接这把三者称为ETL)、数据虚拟化以及将数据转换为通用格式和位置的其他技术
    • 数据存储区域
      • 1)暂存区。介于原始数据源和集中式数据存储库之间的中间数据存储区域。
      • 2)参考数据和主数据一致性维度。
      • 3)中央数据仓库。
        • 数据结构的设计元素包括:
          • ①基于性能考虑而设计的业务主键和代理主键之间的关系。
          • ②创建索引和外键以支持维度表。
          • ③用于检测、维护和存储历史记录的变更数据捕获(Change Data Capture,CDC)技术。
      • 4)操作型数据存储(ODS)。操作型数据存储包含一个时间窗口的数据而不是全部历史记录,因此可以比数据仓库有更快地刷新频率。
      • 5)数据集市。面向特定主题域、单个部门或单个业务流程。
      • 6)数据立方体(Cubes)。
        • 三种经典的支持在线分析处理系统 OLAP:
          • 基于关系
          • 基于多维
          • 混合型存储结构

加载处理方式

  • 历史数据
    • 1.Inmon 类型的数据仓库建议所有数据存储在单个数据仓库层中。这一层中存储已清洗过的、标准化的和受管控的原子级数据。
    • 2.Kimball 类型的数据仓库建议,数据仓库由包含已清洗过的、标准化的和受管控数据的部门级数据集市合并而成。数据集市将在原子级别存储历史记录,由一致性维度表和一致性事实表提供企业级信息。
    • 3.Data Vault,作为数据暂存处理的一部分,同样进行数据清洗和标准化。历史数据以规范化的原子结构存储,每个维度定义了代理键(Surrogate key)、主键(Primary key)、备用键(Alternate key)
  • 批量变更数据捕获:数据仓库是通过每天晚上的批处理窗口进行一次数据加载服务。因为不同源系统可能需要不同的变更捕获技术,所以加载过程可以包含各种变更检测。

  • 准实时和实时数据加载
    • 1)涓流式加载(源端累积)。不同于夜间窗口批量加载,它会以更频繁的节奏或阈值进行批量加载;如微批处理。
    • 2)消息传送(总线累积)。极小数据报发到消息总线,目标系统订阅总线。如MQ。
    • 3)流式传送(目标端累积)。目标系统使用缓冲区或队列方式收集数据,并按顺序处理。如kafka。

2、活动

2.1 理解需求

  • 1 要考虑业务目标和业务战略。
  • 2 确定业务领域并框定范围。
  • 3 进行访谈, 确定原因及想要的数据。
  • 4 确定需求的优先级。
  • 5 找出可以快速启动具有价值的需求。

2.2 定义和维护数据仓库/商务智能架构

  • 1)确定数据仓库/商务智能技术架构。
    • 应能以原子化的数据处理方式支撑交易级和运营级的报表需求。做好原型设计可以快速证明或 驳斥关键需求的实现,避免对某些技术或架构进行过大的投入。
  • 2)确定数据仓库/商务智能管理流程。
    • 通过协调和集成维护流程进行生产管理,定期向业务团队发布。建立一个有效的发布流程,确保管理层理解这是一个以数据产品为中心的主动流程,而不是已安装产品的被动 式问题解决方式。  

2.3 开发数据仓库和数据集市

  • 数据仓库/商务智能建设项目有三条并存的构建轨迹:
    • 1)数据。支持业务分析所必需的数据。识别最佳来源、设计规则、处理不合预期数据。
    • 2)技术。 支持数据存储和迁移的后端系统及流程。
    • 3)商务智能工具。
  • 内容:
    • 1.将源映射到目标。
      • 建立转换规则。
      • 确保链接有效性或等效性(最困难的)。
      • 分类法是逻辑数据模型。
    • 2.修正和转换数据。
      • 数据修正或清理活动的执行标准,纠正域值。
      • 源系统应负责数据的修复工作并确保数据正确。
      • 乐观和悲观策略:
        • 乐观加载策略:创建维度记录以容纳事实数据。
        • 悲观加载策略:事实数据的回收区域。

2.4 加载数据仓库

  • 工作量最大的部分是数据准备和预处理
  • 确定数据加载方法时要考虑的关键因素:
    • 数据仓库和数据集市所需的延迟要求、源可用性、批处理窗口或上载间隔、目标数据库及时间帧的一致性,还必须解决数据质量处理过程、执行转换的时间、延迟到达的维度 和数据拒绝等问题。
    • 围绕变更数据捕获过程检测源系统中的数据变更,将这些变更集成在一起,并依时间调整变更。

2.5 实施商务智能产品组合

  • 1.根据需要给用户分组。
    • 了解用户组。将工具与用户组匹配。
  • 2.将工具与用户要求相匹配。
    • 需要系统资源、技术支持、培训和架构集成。

2.6 维护数据产品

  • 1.发布管理:
    • 发布管理对增量的开发过程至关重要,增加新功能,增强生产部署,并确保为已部署的资产提供定期维护。这个过程将使数据仓库保持是最新的、清洁的,并以最佳状态运行。但是,此过程需要T和业务之间的一致性,与数据仓库模型和 BI 功能之间保持一致。这是一项持续的改进工作。
  • 2.管理数据产品开发生命周期。
  • 3.监控和调优加载过程:
    • 了解性能瓶颈和依赖路径。
    • 分区、备份调优、恢复策略。
    • 归档是难题。
  • 4.监控和调优商务智能活动和性能。
    • 最佳实践是定义一组面向客户满意度的指标。
    • 定期审查 。
    • 透明度和可见性推动数据仓库/商务智能监控的关键原则。

3、工具

  • 1.元数据存储库。
    • A.数据字典和术语。
      • 数据字典是支撑数据仓库使用的必需组件。字典用业务术语来描述数据,数据字典内容来自逻辑数据模型。
    • B.数据和数据模型的血缘关系。
      • 1)调查数据问题的根本原因。
      • 2)对系统变更或数据问题进行影响分析。
      • 3)根据数据来源确定数据的可靠性。
  • 2.数据集成工具。
    • 用于加载数据仓库。考虑:
      • 1)过程审计、控制、重启和调度。
      • 2)有选择地提取数据元素并将其提供给下游系统进行审计的能力。
      • 3)控制操作的执行,并重启失败或中止的进程。
  • 3.商务智能工具。
    • 1)运营报表。
      • 业务用户直接从交易系统、应用程序或数据仓库生成报表。数据检索和报表工具,有时称为即席查询工具,允许用户编写自己需要的报表或创建供他人使用的报表。业务运营报表中的需求通常与业务查询报告的需求不同。生产报表跨越了数据仓库/商务智能的边界,它经常直接查询交易系统,产生诸如发票或银行对账单之类的操作项。传统的商务智能工具可以很好地展现表格、饼图、折线图、面积图、条形图、直方图、K线图等一些数据可视化方法。
    • 2)业务绩效管理 BPM。
      • 旨在优化业务战略的执行。
      • 绩效度量和带正反馈回路是关键的要素。
    • 3)描述性自助分析。
      • 目的:为前台提供,指导运营决策
      • 工具:
        • 在线分析处理 OLAP:多维分析查询提供快速性能的方法。
        • OLAP常见操作:
          • 1)切片 (Slice)。切片是多维数组的子集,对应不在子集中的维度的一个或多个成员的单个值。
          • 2)切块 (Dice)。切块操作是数据立方体上两个以上维度的切片,或者是两个以上的连续切片。
          • 3)向下/向上钻取 (Drill dow/up)。向下钻取或向上钻取是一种特定的分析技术,用户可以在不同数据级别之间导航,范围从最概括(向上)到最详细 (向下)
          • 4)向上卷积 (Roll-up)。卷积涉及计算一个或多个维度的所有数据关系。为此,需要先定义计算关系或公式。
          • 5)透视 (Pivot)。透视图会更改报表或页面的展示维度
        • 三种经典 OLAP 实现方法如下:
          • 1)关系型联机分析处理(ROLAP):ROLAP 通过在关系数据库 (RDBMS) 的二维表中使用多维技术来支持 OLAP。星型架构是 ROLAP 环境中常用的数据库设计技术
          • 2)多维矩阵型联机分析处理 (MOLAP):MOLAP 通过使用专门的多维数据库术支持OLAP
          • 3)混合型联机分析处理 (HOLAP):它是 ROLAP和 MOLAP 的结合。HOLAP 实现允许部分数据以MOLAP 形式存储,而另一部分数据存储在 ROLAP 中。控件的实现方式各不相同,设计师对分区的组合也各有不同。

4、方法

  • 1.驱动需求的原型。
    • 数据剖析有助于原型设计,降低风险。
    • 源数据状态评估有助于集成可行性和工作范围的评估。
  • 2.自助式商务智能。
    • 自助服务是商务智能的基本交付形式。根据用户权限提供,按标准计划推送,在门户中执行报表提取数据。
  • 3.可查询的审计数据。
    • 所有结构和流程都应能创建和存储审计数据。能进行细粒度的跟踪和报告。 提升用户信心。可快速定位问题。

5、实施指南

5.1 就绪评估/风险评估

成功的项目从先决条件清单开始。所有IT项目应该有业务支持,与战略保持一致,并且有一个定义良好的架构。

数据仓库应实现的几点:

  • 1)明确数据敏感性和安全性约束。
  • 2)选择工具。
  • 3)保障资源安全。
  • 4)创建抽取过程以评估和接收源数据。

5.2 版本路线图

  • 逐步建设
  • 要考虑实现的最后状态

5.3 配置管理

配置管理与发布路线图保持一致,并提供必要的后台调整和脚本,以自动化开发、测试和发布到生产。

5.4 组织和文化变革

  • 始终保持一致的业务重点是项目成功的关键,了解企业的价值链是理解业务环境的好方法,要确保数据仓库团队与业务部门团队保持一致
  • 成功的关键:
    • 1)业务倡议。是否有合适的管理层支持?
    • 2)业务目标和范围。是否有确切的业务需要、业务目标和工作范围?
    • 3)业务资源。是否有专家?参与度如何?
    • 4)业务准备情况。业务合作是否准备好这是长期的增量交付项目?目标组织内的平均知识水平或技能差距有多大?
    • 5) 愿景一致。IT战略对业务愿景的支持程度如何?

6、数据仓库/商务智能治理

数据仓库/商务智能治理的考量因素:治理流程应降低风险,而不是减少任务的执行。最关键的功能是那些管理业务运营的发现或改进区域,以及确保数据仓库本身质量稳定的功能。

  • 1.业务接受度:一个关键的成功因素是业务对数据的接受程度,包括可理解的数据、具有可验证的质量、具有可证明的数据血缘关系
    • 考虑的问题:
      • 1)概念数据模型。组核心信息?关键的业务概念? 如何相互关联?
      • 2)数据质量反馈循环。如何识别和修正问题数据?如何了解问题是怎么产生的? 怎样对解决问题负责?对数据仓库的数据集成过程中引起的问题进行补救的过程是什么?
      • 3)端到端元数据。架构如何支持集成的端到端元数据流?是否理解上下文环境的意义?数据消费者 如何回答诸如“这个报表的含义是什么”或“这个指标是什么意思”等基本的问题?
      • 4)端到端可验证数据血缘。业务用户公开访问的项目是否能以自动化的、可自维护的方式追溯到源系统?所有 数据是否都记录在案?
  • 2.客户/用户满意度。
  • 3.服务水平协议 SLA。
  • 4.报表策略。
    • 必须解决的问题:
      • 1)安全访问。确保只有获得授权的用户才能访问敏感数据。
      • 2)描述用户交互、报告、检查或查看其数据的访问机制。
      • 3)用户社区类型和使用它的适当工具。
      • 4)报表摘要、详细信息、例外情况以及频率、时间、分布和存储格式的本质。
      • 5)通过图形化输出发挥可视化功能的潜力。
      • 6)及时性和性能之间的权衡。

度量指标:

  • 1.使用指标。包括注册用户数、连接用户数或并发用户数。
  • 2.主题域覆盖率。衡量每个部门访问仓库的程度
  • 3.响应时间和性能指标。指标的后续跟进工作是验证和服务级别调整。
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/524254
推荐阅读
相关标签
  

闽ICP备14008679号