当前位置:   article > 正文

Kylin实战:建立cube的优化_kylin cube优化

kylin cube优化

目录

背景

Kylin的维度组合优化

1、 Mandatory维度

2、 hierarchy维度

3、 derived维度

4、 联合维度

Kylin的Rowkey优化

1、编码

2、顺序

3、分片


背景

了解OLAP Cube的人都会知道,建立cube的过程中往往会出现“维度爆炸”问题。Kylin是典型的Multidimensional OLAP应用,牺牲灵活性,使用预计算来提升性能,以实现对超大数据集的秒级响应。在Kylin建立cube的过程中,如果默认选择所有维度的组合,那么维度组合将是2^N(N为维度个数)。

在工业领域,一般建立的宽表可能会有大几十个的维度,甚至达到上百。但是平常使用的时候,也许只有不到一半的维度组合能超过20个维度。大部分维度组合的个数可能都是10多个。这样一来,会造成存储的极大浪费,也会影响Kylin的查询性能。

Kylin的维度组合优化

kylin从1.5版本后引入了一个新的特性:聚合组(Aggregation Groups)。

 

如下是官网提出的两种方法:

1、首先,我们可以移除那些不一定是维度的维度。例如,假设有一个日期查找表,其中保存的cal_dt是PK列,以及许多派生列,如week_begin_dt、month_begin_dt。尽管分析人员需要week_begin_dt作为维度,但我们可以对它进行删减,因为它总是可以从维度cal_dt中计算出来,这就是“派生”优化。

 

2、其次,可以修剪聚合组之间的某些组合。这是本文的主要讨论,我们称之为“组合修剪”。例如,如果将某个维度指定为“强制”,则可以删除所有没有该维度的组合。如果维A,B,C形成“层次”关系,则仅保留与A,AB或ABC的组合。在v1.5之前,Kylin还具有“聚合组”概念,该概念也可用于组合修剪。但是,它的文献记录不多,很难理解(我也发现很难解释)。无论如何,我们将跳过它,因为我们将重新定义“聚合组”的真正含义。

 

下文主要讲解第二种方法-----维度剪枝优化:

在kylin1.5之后,有四种类型的聚合组,每一种类型的聚合组也即是一种特定的规则。通过这四种规则来达到剪枝优化的目的。

 

1、 Mandatory维度

这种维度意味着每次查询的group by中都会携带的,将某一个dimension设置为manda

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/697690
推荐阅读
相关标签
  

闽ICP备14008679号