赞
踩
Spark Streaming的编程抽象是离散化流,也就是DStream。它是一个 RDD 序列,每个RDD代表数据流中一个时间片内的数据。
Spark Streaming为每个输入源启动对应的接收器。接收器运行在Executor中,从输入源收集数据并保存为 RDD
默认情况下接收到的数据后会复制到另一个Executor中,进行容错;
Driver 中的 StreamingContext 会周期性地运行 Spark 作业来处理这些数据。
可以看出SparkStreaming只是将数据按时间划分为DStream,而且只能根据BatchTime进行数据处理,没有支持事件时间。
之后出现的StructureStreaming
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。