赞
踩
数据仓库产生背景
大规模数据被存储在数据库中,一些非热点数据需要我们对其进行处理计算,根据这些数据得出一些我们在某个时间段或某个背景下想要得到的数据。
一、数据处理方式
1.1 OLTP(On-line Transaction Processing),联机事务处理
具有事务的特性,常用来处理高并发且数据量不大的查询。OLT主要是为了处理数据库,用于优化查询和负载,常见的优化在于主码索引和散列
1.2 OLAP(On-line analytical Processing)联机分析处理
OLAP则是为了分析数据而设计的,其查询方式往往是复杂的,通常会设计到大量的数据汇总计算。
1.3 OLAP基本操作
上卷:
将数据进行聚合处理,通过一个维度向更高的维度靠拢
下钻:
对数据进行拆分处理,将数据从高维拆分到低维
切片:
对某一维度数据进行切分,只关注特定的维度
切块:
对多个维度进行切分,只关注特定的维度
二、数据建模
良好的模型能帮我们快速查询需要的数据,减少IO吞吐。
关系建模:
3范式:
1NF:列不可再分
2NF:所有的列必须依赖主键
3NF:如果出现部分列不依赖主键,则把这部分列重新构建一张表
表于表关系:
1V1 相同主键,互相持有对方主键
1Vn 多方持有一方的主键
nVn 构建中间表,通过俩张表的主键连接到一起
维度建模:
维度表:
一般是对事实描述信息。每一张维度表对应着实现世界中的一个对象或者概念
特点:行数较少,内容固定
建模四部曲
选择业务:比如商城,整个商城流程分为商家端,用户端,平台端,运营需求是总订单量,订单人
确认维度:维度退化:谁 。 什么时间 什么地点 数仓工具箱中告诉我们 牢牢掌握事实表的粒度,就能将所有可能存在的维度区分开,并且要确保维度表中不能出现重复数据,应使维度主键唯一
确认事实:度量值:如个数,件数,金额
4.4 时变性
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。