赞
踩
数据仓库,顾名思义是存放数据的仓库。既然是仓库,那么里面就有隔间,不同的隔间存放不同的物品,数据仓库也是如此。不同公司的数据仓库,不同的架构,下面我来谈谈我自己对数据仓库架构的理解。
首先,我们需要建立一个“仓库”,数据仓库所对应的就是数据库。我们根据我们数据仓库的数据量以及所应用的场景选择不同的数据库,比如数据数据量比较打我们可以选择gp、HIVE或者Hbase等分布式数据库;如果数据不多,就可以选择普通的像mysql等数据库。
其次,我们说的仓库的隔间,对应于数据库的模式,不同的模式下存放不同的数据。我所理解的结构就是为:ODS、EDW和DM,也就是贴源层、主题模型层、共性加工层以及集市层。每一个层对应于数据库下面的模式,接下来依次介绍这四个层:
(1) ODS(贴源层):即这里存放的数据与原系统保持一致,将采集公司所有的系统产生的数据以及外部数据(包括合作数据以及爬虫获得的数据),将所采集的数据汇总到一起,供EDW和DM使用;
(2) EDW:这一层分为两个,即ADM(共性加工层)和FDM(主题模型层)。其中FDM将从ODS层不同系统不同表的字段进行分类,同一主题的字段都归为一类,目前流行的十大主题;ADM是加工一些共性的指标,指标从ODS或者FDM的字段加工来,这层主要供集市层使用;
(3) DM:数据集市层,这一层是将业务部门所关注的指标进行汇总,形成的数据,不同的业务部门可以形成不同的集市,具体情况可以视情况而定;集市层的架构可以细分为:基础层、汇总层和分析层。
这样的层次结构,虽然层次很清晰,但是如果越靠近底层数据出现问题,那么就会越影响到后面的;同时时间上做不到实时更新,一边都是T+1,或者越到后面时效性都可能是T+2/3的情况。因此当我们考虑到我们的应用的场景是否需要考虑时效性的时候,我们也要做出相应的调整。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。