赞
踩
数据仓库基础笔记思维导图已经整理完毕,完整连接为:
数据仓库基础知识笔记思维导图
建造数据仓库只要包含两个部分的工作:
数据仓库需求只有在已经装载部分数据并开始使用时才能弄清楚
数据仓库是在启发方式下建造的
从多处抽取操作型数据,经过无数细节编程,并进行一致性处理。
过程建模: 通过过程设计和过程定义来建立过程模型的活动
数据建模:对现实世界各类数据的抽象组织,确定数据库需要管辖的范围,数据的组织、形式等直接转化成现实的数据库
过程模型是需求驱动的,不适用于数据仓库
数据模型适应于现有系统环境,也适用于数据仓库环境
操作型环境:
以实体和关系为特征,直接给出依赖关系,依赖数据最小化,由集成范围5设定并规范
对高层模型中标识的每个主要主题域和实体,都要建立一个中间层模型。某个主要主题域中间层数据模型扩展后,首先队模型的一部分进行充实,模型的其他部分不变,一直迭代。
数据模型处理的输出结果是一系列的表,每个表都包含关键字和属性。常规的数据是大量的表,但是每个表包含少量数据,会对性能造成影响。
优化性能的办法:
若属性或属性组F是基本关系R的外键,它与基本关系S的主键Ks相对应(基本关系R和S不一定是不同的关系),则对于R中的每个元组在F上的值必须为:
(1)空值,F的每个属性值均为空值。
(2)S中某个元组中的主键值(主码值)。
即参照的关系中的属性值必须能够在被参照关系找到或者取空值,否则不符合数据库的语义。在实际操作时如更新、删除、插入一个表中的数据,通过参照引用相互关联的另一个表中的数据,来检查对表的数据操作是否正确,不正确则拒绝操作。
操作型系统 | 数据仓库环境 |
---|---|
数据表之间的动态链接 | 人工关系,可以单独管理,无需更新,访问效率高 |
事件触发的快照的基本组成部分:
元数据是关于数据的数据
数据仓库参照表是指一种用于关联多个数据表的数据结构,它通常是一个具有外键约束的二维表格。数据仓库参照表的主要作用是方便用户进行跨表关联,减少数据查询时的冗余操作,提高数据查询效率。
参照数据应该通数据仓库的其他部分一样,加入时间元素以反映他们的时变特征
数据从操作型环境中的数据发生改变起,到这个变化反映到数据仓库中所用的时间
在转换时可以引用大量数据,但是它试图抽取和装载数据而跳过转换过程,这个操作显著减少了数据仓库的价值。
ETL的主要过程参考:
ETL的关键因素
首先,你必须从很多不同的系统中抽取数据。
其次,对于数据仓库来说,你必须根据增量装载工作和初始完全装载的变化来抽取数据。
数据抽取要点:
对全部正确数据源的确认,并不是对数据源的简单确认,还要检查个确定数据源是否可以提供数据仓库的值。
数据源确认不是一个简单的过程,它是数据抽取功能中十分重要的第一步,你必须对存储在数据仓库中的每一项信息进行数据源确认,需要大量的时间和复杂彻底的分析工作。
数据源确认,一个逐步的方法
源系统中的操作数据一般来说,分为两类
装载类型
| 静态数据捕获 | 在源应用程序中的捕获 |通过交易日志捕获|基于日期和时间标记的捕获|通过数据库触发器的捕获|通过文件比较的捕获|
|:--------|:-------------|:-------------|:-------------|:-------------|:-------------|:-------------|
| 灵活性较好 | 灵活性好 |不是那么灵活|灵活性好|不是那么灵活|灵活性好|
|源系统性能不受影响 |对源系统性能有一点影响 |源系统性能不受影响|源系统的性能不受影响|对源系统的性能有一点影响|源系统的性能不受影响|
| 对已有的应用程序不需要修改 |对已有的应用程序有很大修改 |对已有的应用程序不需要修改|很可能会对已有的应用程序有很大修改|对已有的应用程序不需要修改|对已有的应用程序不需要修改|
| 能用在旧的系统中 |能用在大多数的旧系统中 |可以应用在大多数旧系统中|不能用在大多数旧系统中|不能用在大多数的旧系统中|可能可以用在大多数的旧系统中|
| 能用在面向文件的系统中|能用在面向文件的系统中 |不能用在面向文件的系统中|不能用在面向文件的系统中|不能用在面向文件的系统中|可能可以用在面向文件的系统中|
|使用供应商产品,没有内部成本 |因为内部工作带来很高的内部成本 |使用供应商产品,没有内部成本|可能使用供应商产品|需要使用供应商产品,没有内部成本|需要使用供应商产品,没有内部成本|
三个不同时期的旧系统,实体的编码不同,无法确定是同一实体,必须设计复杂的算法来将所有的记录进行匹配。没有任何匹配算法可以完全解决这个问题。
数据元素拥有多个数据源,存在细微差别
引起数据仓库的数据载入的基本的业务交互活动可以称为“事件-快照”交互。
某个事件触发的数据快照,然后这个快照转移到数据仓库环境中。
产生概要记录的前提,有以下情况一种或多种
概要记录为最终用户访问和分析提供了一种紧凑的、方便的数据组织形式。
一些非常规情况,数据仓库数据可以回流进数据仓库
操作型环境直接访问数据仓库时严格的、不能妥协的限制:
数据仓库的一个最为高效的使用方式就是操作型环境访问数据仓库的数据
程序对数据仓库进行定期分析,以检验相关的特征和标准,分析过程将在在线环境中产生一个小文件,其中包含了有关企业业务方面的简明信息
数据仓库设计绝对是一个适合于使用规范或关系型方法的领域
多维方法需要的元素:
操作型数据存储(ODS)有四类:
数据仓库不是由处理需求间形成的,而是根据企业需求而设计的。
企业需求综合地看待对于处理、数据和基础框架的所有需求。
聚集和组织企业需求的最好办法之一是叫做Zachman框架方法。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。