当前位置:   article > 正文

爱奇艺大数据实时分析平台的建设与实践

爱奇艺实时项目统计实站项目ppt总结

0

导语

生活在信息爆炸时代的我们越来越清晰的认识到海量信息与数据分析的重要性,如提高数据挖掘能力、为运营决策提供关键数据、通过数据分析助力业务创新、在商业决策中的提供较有价值的信息等成为关键,于是大数据分析平台作为在各大公司迅速崛起。如何为企业个性化打造高效性、准确性、敏捷型等的大数据实时分析平台成为了技术团队的挑战。

RAP(RealtimeAnalysis Platform)是爱奇艺技术产品团队基于Apache Druid [1] + Spark/ Flink  构建的分钟级延时的实时联机分析处理OLAP(On-Line Analytical Processing)的实时分析平台,支持通过Web向导配置完成超大规模实时数据的多维度分析,能为用户提供一体化的OLAP分析操作流程,只需要几步简单的配置,即可自动建立OLAP模型、并生成分钟级延时的可视化报表。也可以通过RAP API获取聚合数据,与业务平台进行集成。服务于会员、推荐、BI等诸多个业务,总计上线总计上线数百个流计算任务,支持上千张多维分析报表。

本文将介绍爱奇艺大数据实时分析平台RAP的设计思路、技术架构演进以及业务应用实践。


1

实时分析需求

自2010年开始爱奇艺开展了大数据业务,打造了基于Hive + MySQL的第一代OLAP数据分析平台。但随着业务的快速发展和数据量的急剧增长,Hive的离线分析已经无法满足业务对数据实时性的需求。于是逐渐引入Kylin、Impala、Kudu、Druid、ElasticSearch等不同的数据存储/查询引擎,演化出离线数仓、实时数仓、流式数仓等不同OLAP形态。

在推出RAP实时分析平台之前,业务自行构建实时分析服务面临以下困难:

·  OLAP选型困难:众多OLAP引擎满足多样化需求,但也带来了不少问题。业务需要了解不同OLAP引擎的优缺点,花费大量精力学习,依然可能选错;

·  开发成本高:用户需要写Spark或Flink代码进行实时流数据处理,并进行报表前端开发,流程冗长而复杂;

·  数据实时性差:从数据产生到数据可被查询,中间存在较高时延(从数十分钟到天级别不等),且查询较慢;

·  维护耗费时间:数据源发生改变时,修改的范围会覆盖整个流程,从数据处理到报表配置全部需要变更,很难操作和维护;

针对以上问题,我们搭建了支持通过Web向导配置完成超大规模实时数据的多维度分析,生成分钟级延时的可视化报表,在保证数据实时性和分析灵活性的同时,降低开发和维护成本,并将整个分析流程平台化的RAP实时分析平台。

2

实时分析平台架构演变

2.1 RAP 1.x

2.1.1 OLAP选型

在开发大数据实时分析平台RAP平台之前,需要选择一款适合实时分析场景的OLAP引擎。

大数据实时分析的典型场景具备以下几个特征:

·  时序数据:基于时间的系列

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/在线问答5/article/detail/841550
推荐阅读
相关标签
  

闽ICP备14008679号