大数据开发-Spark-开发Streaming处理数据 && 写入Kafka_spark rdd写入kafka

作者：酷酷是懒虫 | 2024-08-28 19:34:00

踩

spark rdd写入kafka

1.Spark Streaming简介

Spark Streaming从各种输入源中读取数据，并把数据分组为小的批次。新的批次按均匀的时间间隔创建出来。在每个时间区间开始的时候，一个新的批次就创建出来，在该区间内收到的数据都会被添加到这个批次中。在时间区间结束时，批次停止增长，时间区间的大小是由批次间隔这个参数决定的。批次间隔一般设在500毫秒到几秒之间，由开发者配置。每个输入批次都形成一个RDD，以 Spark 作业的方式处理并生成其他的 RDD。处理的结果可以以批处理的方式传给外部系统，Spark Streaming的编程抽象是离散化流，也就是DStream。它是一个 RDD 序列，每个RDD代表数据流中一个时间片内的数据。另外加入了窗口操作和状态转化，其他和批次处理类似。

与StructedStreaming的区别

StructedStreaming诞生于2.x后，主要用于处理结构化数据，除了实现与Spark Streaming的批处理，还实现了long-running的task，主要理解为处理的时机可以是数据的生产时间，而非收到数据的时间，可以细看下表：

流处理模式	SparkStreaming	Structed Streaming
执行模式	Micro Batch	Micro batch / Streaming
API	Dstream/streamingContext	Dataset/DataFrame,SparkSession
Job 生成方式	Timer定时器定时生成job	Trigger触发
支持数据源	Socket,filstream,kafka,zeroMq,flume,kinesis	Socket,filstream,kafka,ratesource
executed-based	Executed based on dstream api	Executed based on sparksql
Time based	Processing Time	ProcessingTime & eventTIme
UI	Built-in	No

对于流处理，现在生产环境下使用Flink较多，数据源方式，现在基本是以kafka为主，所以本文对Spark Streaming的场景即ETL流处理结构化日志，将结果输入Kafka队列

2.Spark Sreaming的运行流程

1、客户端提交Spark Streaming作业后启动Driver，Driver启动Receiver，Receiver接收数据源的数据

2、每个作业包含多个Executor，每个Executor以线程的方式运行task，SparkStreaming至少包含一个receiver task（一般情况下）

3、Receiver接收数据后生成Block，并把BlockId汇报给Driver，然后备份到另外一个 Executor 上

4、ReceiverTracker维护 Reciver 汇报的BlockId

5、Driver定时启动JobGenerator，根据Dstream的关系生成逻辑RDD，然后创建Jobset，交给JobScheduler

6、JobScheduler负责调度Jobset，交给DAGScheduler，DAGScheduler根据逻辑RDD，生成相应的Stages，每个stage包含一到多个Task，将TaskSet提交给TaskSchedule

7、TaskScheduler负责把 Task 调度到 Executor 上，并维护 Task 的运行状态

常用数据源的读取方式

常数据流：

    val rdd: RDD[String] = ssc.sparkContext.makeRDD(strArray)
    val wordDStream: ConstantInputDStream[String] = new ConstantInputDStream(ssc, rdd)

Socket:

    val rdd: RDD[String] = ssc.sparkContext.makeRDD(strArray)
    val wordDStream: ConstantInputDStream[String] = new ConstantInputDStream(ssc,

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/酷酷是懒虫/article/detail/1021853?site