当前位置:   article > 正文

应用StarRocks实现存储引擎的收敛,保障高查询并发及低延迟要求_kudu starrocks

kudu starrocks

多点 DMALL 成立于2015年,是一站式全渠道数字零售解决方案服务商。数字化解构重构零售产业,提供端到端的商业 SaaS 解决方案。目前,多点 DMALL 已与120多家连锁零售商、品牌商等达成合作,覆盖四个国家和地区15000家门店,模式受到广泛验证。

多点大数据部门使用 StarRocks 逐步替代了 Impala、Impala on Kudu、Apache Kylin 等存储引擎,实现了存储引擎的收敛,简化了实时数据处理链路,同时也能保障较高的查询并发以及较低的响应延迟要求。

“ 作者:任伟,

多点生活大数据部门资深研发工程师 ”

背景介绍

多点大数据部门为内部业务研发团队、数据分析师、外部用户以及合作伙伴,提供了基础的大数据产品、平台服务,帮助零售企业解决了从基本的数据汇总管理、统一的数据计算应用、到各种场景下对数据的多模式使用的需求,可覆盖零售企业绝大部分数据诉求。
在这里插入图片描述

技术层面,多点大数据部门基于 Hadoop 开源技术栈,并进行了部分二次开发后构建起了以下的一个技术架构全景图。从下到上分为基础设施层、数据源层、数据集成层、离线/实时计算层、集市层、分析存储层、数据服务/应用层,数据开发、数据模型中心与运维管理层对各层提供支持。

在这里插入图片描述

基础设施层:包括超大带宽的专线网络;公有云、私有云、机房托管的混合云部署;

数据源层:包括企业 OLTP 数据库、业务数据、日志数据、三方接入数据;

数据集成层:DataBus 是多点自研数据同步平台,解决企业内各业务线之间、跨企业组织之间以及跨行业的数据汇聚、融合等问题,将不同系统的数据相互打通,实现数据自由流动;

离线计算层:利用 Hive / Spark 高可扩展的批处理能力承担离线数仓的 ETL 和数据模型加工;

实时计算层:利用 Flink / Spark Streaming 完成实时数据的 ETL(包括维度扩充,多流 Join,实时汇总)等;

离线/实时集市层:使用数仓分层模型构建 ODS(原始数据层)、DWD(数据明细层)、DWS(汇总层)、DIM(维度层)、DWT(主题层)、ADS(应用层),并根据公司业务拆分不同的数据域;

分析存储层:主要依赖 Druid、ClickHouse、Impala on Kudu、Apache Kylin、Elasticsearch、HBase、MySQL、StarRocks 提供 OLAP 查询能力;

数据服务/应用层:该层通过提供 BI 分析产品、数据服务接口、营销、报表类产品,向内部运营人员、外部客户、合作伙伴提供数据分析决策能力。

原有架构痛点

上述架构解决了多点绝大部分数据诉求,在整个架构中,无论是基于 Hive、Spark 的离线计算,基于 Flink、Spark Streaming 的实时计算;基于 HDFS、Kafka 的存储;基于数仓分层模型建设等方案都已基本成熟。但是在 OLAP 领域,无论是多点还是业界仍然处于百家争鸣,各有所长的状态。纵观多点在 OLAP 引擎的探索实践中,遇到了各种各样的问题,总结起来如下:

技术成本

由于上层业务场景复杂,各个场景的技术难点、核心点均不一样。多点生活在整个技术架构升级的过程中先后引入了 HBase、Elasticsearch、Druid、ClickHouse、Impala on Kudu、Apache Kylin 等 OLAP 引擎。但是随着技术栈增多,技术曲线陡峭,没有充足的资源进行多技术栈的维护,造成了比较

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/代码探险家/article/detail/750955
推荐阅读
相关标签
  

闽ICP备14008679号