赞
踩
了解OLAP Cube的人都会知道,建立cube的过程中往往会出现“维度爆炸”问题。Kylin是典型的Multidimensional OLAP应用,牺牲灵活性,使用预计算来提升性能,以实现对超大数据集的秒级响应。在Kylin建立cube的过程中,如果默认选择所有维度的组合,那么维度组合将是2^N(N为维度个数)。
在工业领域,一般建立的宽表可能会有大几十个的维度,甚至达到上百。但是平常使用的时候,也许只有不到一半的维度组合能超过20个维度。大部分维度组合的个数可能都是10多个。这样一来,会造成存储的极大浪费,也会影响Kylin的查询性能。
kylin从1.5版本后引入了一个新的特性:聚合组(Aggregation Groups)。
如下是官网提出的两种方法:
1、首先,我们可以移除那些不一定是维度的维度。例如,假设有一个日期查找表,其中保存的cal_dt是PK列,以及许多派生列,如week_begin_dt、month_begin_dt。尽管分析人员需要week_begin_dt作为维度,但我们可以对它进行删减,因为它总是可以从维度cal_dt中计算出来,这就是“派生”优化。
2、其次,可以修剪聚合组之间的某些组合。这是本文的主要讨论,我们称之为“组合修剪”。例如,如果将某个维度指定为“强制”,则可以删除所有没有该维度的组合。如果维A,B,C形成“层次”关系,则仅保留与A,AB或ABC的组合。在v1.5之前,Kylin还具有“聚合组”概念,该概念也可用于组合修剪。但是,它的文献记录不多,很难理解(我也发现很难解释)。无论如何,我们将跳过它,因为我们将重新定义“聚合组”的真正含义。
下文主要讲解第二种方法-----维度剪枝优化:
在kylin1.5之后,有四种类型的聚合组,每一种类型的聚合组也即是一种特定的规则。通过这四种规则来达到剪枝优化的目的。
这种维度意味着每次查询的group by中都会携带的,将某一个dimension设置为manda
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。