当前位置:   article > 正文

基于云原生的大数据实时分析方案实践_云原生 实时

云原生 实时

1 方案介绍

大数据处理技术现今已广泛应用于各个行业,为业务解决海量存储和海量分析的需求。但数据量的爆发式增长,对数据处理能力提出了更大的挑战,同时对时效性也提出了更高的要求。实时分析已成为企业大数据分析中最关键的术语,这意味企业可将所有数据用于大数据实时分析,实现在数据接受同时即刻为企业生成分析报告,从而在第一时间作出市场判断与决策。典型的场景如电商大促和金融风控等,基于延迟数据的分析结果已经失去了价值。另外随着云原生时代的到来,云原生天生具有的高效部署、敏捷迭代、云计算资源成本和弹性扩展等优势,正在加速和缩短业务系统落地过程。云原生同样可助力大数据这一过程。

本文主要介绍如何利用 Kubernetes 实现云原生大数据实时分析平台。

2 总体架构

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-e6ziRBBy-1606816532132)(https://codimd.s3.shivering-isles.com/demo/uploads/upload_a04c19603d0ac600e8492c00362e14ea.png)]

  • Data Streams:基于 Kafka 的数据流接入方案
  • Data Computations:基于 Spark Streaming 与 Flink 的流计算方案
  • Data Pipeline:基于 TKDF(Tencent Kubernetes Data Flow) 的数据工作流方案
  • Data Store:基于 Iceberg 与 HDFS 的数据湖方案
  • Data Interactive Analysis:基于 Spark SQL 与 Presto 的 SQL 交互式分析方案
  • Data Intelligence:基于 Metabase 的数据可视化方案以及若干数据接入方式
  • Data Infrastructure:基于 TKBS(Tencent Kubernetes Bigdata Suite)的云原生大数据套件方案,可帮助用户一键在 Kubernetes 上部署生产可用的大数据平台;基于 TKE / EKS / TKEStack 的 Kubernetes 引擎方案,可为用户提供生产、管控和使用 Kubernetes 集群服务

3 数据接入流

在实时分析中,需要持续、快速、实时地接受源源不断的数据与事件,作为整个分析平台的数据来源与入口。这个过程最好是基于流的、高吞吐、可扩展、可对接主流计算引擎。我们选择 Apache Kafka 作为事件流处理的解决方案。

Apache Kafka 是一个分布式流处理平台,被很多公司广泛使用于数据管道、流分析、数据集成,消息中间件等领域。Kafka 适合场景包括:

  • 消息队列:构造实时流数据管道,它可以在系统或应用之间可靠地获取数据
  • 流处理:构建实时流式应用程序,对这些流数据进行转换或者影响

Apache Kafka 可通过容器化部署在 Kubernetes,充分利用 Kubernetes 资源自动部署、自动扩展、一次配置任意运行等能力做到云原生赋能。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-65kzbven-1606816532139)(https://codimd.s3.shivering-isles.com/demo/uploads/upload_a7bf6d057ae11144c31ab4515ef5550c.png)]

4 数据计算

在传统的数据处理流程中,总是先收集数据,然后将数据放到数据库中。当人们需要的时候通过数据库对数据做查询,得到答案或进行相关的处理。这样看起来虽然非常合理,但是结果却非常的紧凑,尤其是在一些实时搜索应用环境中的某些具体问题,类似于 MapReduce 方式的离线处理并不能很好地解决问题。这就引出了一种新的数据计算结构 - 流计算方式。它可以很好地对大规模流动数据在不断变化的运动过程中实时地进行分析,捕捉到可能有用的信息,并把结果发送到下一计算节点。

在云原生下,我们将

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/567779
推荐阅读
相关标签
  

闽ICP备14008679号