当前位置:   article > 正文

十六、Spark Streaming概述_sparkstreamkng的核心是spark apl的扩展,支持可过产高吞吐量实时数据流的什

sparkstreamkng的核心是spark apl的扩展,支持可过产高吞吐量实时数据流的什

Spark Streaming概述

(一)什么是Spark Streaming

Spark Streaming是Spark Core API(Spark RDD)的扩展,支持对实时数据流进行可伸缩、高吞吐量及容错处理。数据可以从Kafka、Flume、Kinesis或TCP Socket等多种来源获取,并且可以使用复杂的算法处理数据,这些算法由map()、reduce()、join()和window()等高级函数表示。处理后的数据可以推送到文件系统、数据库等存储系统。事实上,可以将Spark的机器学习和图形处理算法应用于数据流。
在这里插入图片描述

(二)Sparing Streaming的主要优点

使用Spark Streaming可以很容易地构建可伸缩的、容错的流应用程序。

1、易于使用

Spark Streaming提供了很多高级操作算子,允许以编写批处理作业的方式编写流式作业。它支持Java、Scala和Python语言。

2、易于与Spark体系整合

通过在Spark Core上运行Spark Streaming,可以在Spark Streaming中使用与Spark RDD相同的代码进行批处理,构建强大的交互应用程序,而不仅仅是数据分析

Spark Streaming工作原理

(一)Spark Streaming工作流程图

Spark Streaming接收实时输入的数据流,并将数据流以时间片(秒级)为单位拆分成批次,然后将每个批次交给Spark引擎(Spark Core)进行处理,最终生成以批次组成的结果数据流。

(二)分段流 - DSteam(Discretized Stream)

Spark Streaming提供了一种高级抽象,称为DStream(Discretized Stream)。DStream表示一个连续不断的数据流,它可以从Kafka、Flume和Kinesis等数据源的输入数据流创建,也可以通过对其他DStream应用高级函数(例如map()、reduce()、join()和window())进行转换创建

(三)输入DStream与Receiver

1、输入DStream与Receiver的关系

输入DStream表示从数据源接收的输入数据流,

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/331211
推荐阅读
  

闽ICP备14008679号