Kylin实战：建立cube的优化_kylin cube优化

作者：菜鸟追梦旅行 | 2024-06-10 07:12:33

踩

kylin cube优化

背景

了解OLAP Cube的人都会知道，建立cube的过程中往往会出现“维度爆炸”问题。Kylin是典型的Multidimensional OLAP应用，牺牲灵活性，使用预计算来提升性能，以实现对超大数据集的秒级响应。在Kylin建立cube的过程中，如果默认选择所有维度的组合，那么维度组合将是2^N（N为维度个数）。

在工业领域，一般建立的宽表可能会有大几十个的维度，甚至达到上百。但是平常使用的时候，也许只有不到一半的维度组合能超过20个维度。大部分维度组合的个数可能都是10多个。这样一来，会造成存储的极大浪费，也会影响Kylin的查询性能。

Kylin的维度组合优化

kylin从1.5版本后引入了一个新的特性：聚合组（Aggregation Groups）。

如下是官网提出的两种方法：

1、首先，我们可以移除那些不一定是维度的维度。例如，假设有一个日期查找表，其中保存的cal_dt是PK列，以及许多派生列，如week_begin_dt、month_begin_dt。尽管分析人员需要week_begin_dt作为维度，但我们可以对它进行删减，因为它总是可以从维度cal_dt中计算出来，这就是“派生”优化。

2、其次，可以修剪聚合组之间的某些组合。这是本文的主要讨论，我们称之为“组合修剪”。例如，如果将某个维度指定为“强制”，则可以删除所有没有该维度的组合。如果维A，B，C形成“层次”关系，则仅保留与A，AB或ABC的组合。在v1.5之前，Kylin还具有“聚合组”概念，该概念也可用于组合修剪。但是，它的文献记录不多，很难理解（我也发现很难解释）。无论如何，我们将跳过它，因为我们将重新定义“聚合组”的真正含义。

下文主要讲解第二种方法-----维度剪枝优化：

在kylin1.5之后，有四种类型的聚合组，每一种类型的聚合组也即是一种特定的规则。通过这四种规则来达到剪枝优化的目的。

1、 Mandatory维度

这种维度意味着每次查询的group by中都会携带的，将某一个dimension设置为manda

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/697690

Kylin实战：建立cube的优化_kylin cube优化

目录

背景

Kylin的维度组合优化

1、 Mandatory维度