赞
踩
数据仓库和数据挖掘的数据通常来自多种数据库或计算机应用系统或数据文件、web页面
数据清洗(Data cleaning)
发现并纠正数据源,即原始数据中存在的问题或错误的过程,包括检查数据一致性,处理无效值、填补缺失值,以及过滤掉那些不符合要求的数据等
空值的处理
对原始数据中没有登记或没有输入的属性值——空值,使用某种对其进行补充或删除等预处理
数据噪声处理
等深分箱法
把数据集中的数据按照排列顺序分配到k个箱子中(k=1,2,…,k)
- 当k整除n时,令p=n/k,则每个箱子都有p个数据,即
- 第1个箱子的数据为:a1,a2,…,ap;
- 第2个箱子的数据为:ap+1,ap+2,…,a2p;
- …
- 第k个箱子的数据为:an-p+1,an-p+2,…,an;
- 当k不能整除n时,令p=n/k (向下取整),q=n-k*p,则可让前面q个箱子有
p+1个数据,后面k-q个箱子有p个数据,即
- 第1个箱子的数据为:a1,a2,…,ap+1;
- 第2个箱子的数据为:ap+2,ap+3,…,a2p+2;
- …
- 第k个箱子的数据为:an-p+1,an-p+2,…,an;
- 也可让前面k-q个箱放p个数,后面q个箱放p+1个数据
例题:
等宽分箱法
把数据集最小值和最大值形成的区间分为k个左闭右开的子区间(最后一个除外)I1,I2,…,Ik。如果 ai属于Ij 就把数据ai放入第j个箱子
例题:
用户自定义区间
当用户明确希望观察某些区间范围内的数据分布时,可以根据实际需要自定义区间,方便地帮助用户达到预期目的
- 数据平滑:对每个箱子中数据进行单独重新赋值
- 三种常见方法:按平均值、按边界值和按中值平滑
按平均值平滑。对同一个箱子中的数据求平均值,并用这个平均值替代该箱子中的所有数据,其余同理
方法有如下几种:
数据归约(data reduction)(也称为数据约简):用精简数据表示原始数据的方法,且归约后数据量通常比原始数据小很多,但具有接近甚至等价于原始数据表达的信息
但还没有学术界和工程应用领域普遍接受的DW概念模型
定义1:称A (维度1,维度2,…,维度n ;变量1,…,变量k) 是一个名称为A的n维数组,也称A为n维超立方体(Hypercube)或多维数据模型(多维模型)
例如:某市公安局拟建立警务数据仓库,需要从入住时间、旅客来源和宾馆辖区三个不同的角度,统计分析来该市城区登记入住宾馆的人次,其多维数据模型为:
Hotel(入住时间,旅客来源,宾馆辖区;入住人次)
多维数据模型通常用于描述决策分析的一个主题框架
若用纯多维数据库管理系统作为DW的管理平台,则多维数据模型既是数据仓库的概念模型,又是数据仓库的逻辑模型,而多维数据集都存储在多维数据库中
多维数据库
多维数据库(Multi-Dimesional DataBase,简称是长期存储在计算机内的、可共享的多维数据集合
MDDB将所有数据都以n维数组的形式存储
多维数据库管理系统
多维数据库管理系统是位于用户与操作系统之间的一层数据管理软件,负责对多维数据库进行统一管理和控制,并为用户和应用程序提供访问多维数据库的方法等
纯多维数据库管理系统Caché
Caché是美国Intersystems公司推出的一款纯多维数据库管理系统,是一种面向对象的多维数据库管理系统,并支持SQL的访问方式
在美国和欧洲的HIS系统(Hospital Information System)中,使用Caché多维数据库管理系统所占的比例是最大的,被医疗界公认为首选数据库
哈尔滨医科大学第一临床医学院2007年实施了基于Caché的HIS系统
特点:
多维数据库存储
多维数据集用超立方体结构(Hypercube),或多立方体结构(Multicube)表示,因此,采用纯多维数据库管理系统(MDDBMS)来存储和管理多维数据集是一种理想的方法
多维数据库存储的优点
多维数据库存储多维数据集,其数据显示直观、计算处理效率高,特别便于汇总
多维数据库存储的缺点
事实表
事实表是星型模型结构的核心,它至少应包含两个部分,一是多维数据模型的事实(变量),也就是度量指标值,另一个是由主键和若干外键
事实表可以通过外键与维度表的主键连接,帮助用户理解度量指标值的实际意义,还可以按照维度表中维度层次进行各种统计和分析维度表
维度表就是存放多维数据模型维度信息的基本表,它也包括两个部分,一个是主键,并作为外键存放在事实表中。另一个是维度名称和维层次等细节信息,它为事实表中的每个事实提供了详细的描述信息
例如:
雪花模型是星形模型按照关系数据库规范化理论对维度表进行分解的结果。其目的是消除数据冗余,同时增加更多对事实进行细节描述的信息,提高查询分析的灵活性。但其查询效率通常比星型模型表示的多维数据集要低一些
物理数据模型(Physical Data Model),是描述数据在存储介质上组织结构的数据模型,它不但与具体的DBMS有关,而且还与操作系统和硬件有关,是机器世界物理层次的数据模型
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。