赞
踩
0
导语
RAP(RealtimeAnalysis Platform)是爱奇艺技术产品团队基于Apache Druid [1] + Spark/ Flink 构建的分钟级延时的实时联机分析处理OLAP(On-Line Analytical Processing)的实时分析平台,支持通过Web向导配置完成超大规模实时数据的多维度分析,能为用户提供一体化的OLAP分析操作流程,只需要几步简单的配置,即可自动建立OLAP模型、并生成分钟级延时的可视化报表。也可以通过RAP API获取聚合数据,与业务平台进行集成。服务于会员、推荐、BI等诸多个业务,总计上线总计上线数百个流计算任务,支持上千张多维分析报表。
本文将介绍爱奇艺大数据实时分析平台RAP的设计思路、技术架构演进以及业务应用实践。
1
实时分析需求
自2010年开始爱奇艺开展了大数据业务,打造了基于Hive + MySQL的第一代OLAP数据分析平台。但随着业务的快速发展和数据量的急剧增长,Hive的离线分析已经无法满足业务对数据实时性的需求。于是逐渐引入Kylin、Impala、Kudu、Druid、ElasticSearch等不同的数据存储/查询引擎,演化出离线数仓、实时数仓、流式数仓等不同OLAP形态。
在推出RAP实时分析平台之前,业务自行构建实时分析服务面临以下困难:
· OLAP选型困难:众多OLAP引擎满足多样化需求,但也带来了不少问题。业务需要了解不同OLAP引擎的优缺点,花费大量精力学习,依然可能选错;
· 开发成本高:用户需要写Spark或Flink代码进行实时流数据处理,并进行报表前端开发,流程冗长而复杂;
· 数据实时性差:从数据产生到数据可被查询,中间存在较高时延(从数十分钟到天级别不等),且查询较慢;
· 维护耗费时间:数据源发生改变时,修改的范围会覆盖整个流程,从数据处理到报表配置全部需要变更,很难操作和维护;
针对以上问题,我们搭建了支持通过Web向导配置完成超大规模实时数据的多维度分析,生成分钟级延时的可视化报表,在保证数据实时性和分析灵活性的同时,降低开发和维护成本,并将整个分析流程平台化的RAP实时分析平台。
2
实时分析平台架构演变
2.1 RAP 1.x
在开发大数据实时分析平台RAP平台之前,需要选择一款适合实时分析场景的OLAP引擎。
大数据实时分析的典型场景具备以下几个特征:
· 时序数据:基于时间的系列
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。