赞
踩
从大数据应用的角度看,数据仓库是大多数企业“试水”大数据的首选切入点,原因为:
数据仓库和数据库之间区别:
维度是审视数据的角度,通常是记录的一个属性。度量是基于数据计算出来的度量值,通常为一个数值。分析人员要结合若干个维度来审查度量值,以便从中找到变化规律。
事实表指存储事实记录的表;维度表保存了维度的属性值,可跟事实表做关联,相当于将事实表上经常出现的属性抽取出来形成的一张专用表。使用维度表好处:
维度的基数指该维度在数据集中出现了不同值的个数
对于每一种维度的组合,将度量做聚合运算,然后将运算结果保存为一个物化视图,成为Cuboid;所有维度组合的Cuboid作为一个整体,成为Cube。一个Cube就是许多按维度聚合的物化视图集合。
星形模型是一张事实表,有零个或多个维度表,维度表之间没有关联。将星形模型中某些维度表再做进一步规范,抽取成更细的维度表,然后将这些细粒度的维度表相互关联,就形成了“雪花模型”。出于“易用性”和“性能”两方面考虑,应避免过分“雪花化”。
数据仓库体系构建四大环节:
数据仓库一般会有ODS、数据仓库和数据集市这几个层次。
源数据层是按照DataLake的定位设计的,Dat
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。