当前位置:   article > 正文

spark学习笔记:Spark Streaming介绍_sparkstreaming是伪实时框架,通过什么模拟实时处理?

sparkstreaming是伪实时框架,通过什么模拟实时处理?

spark stream是用处理来模拟实时,批的时间缩得特别短。属于伪实时

 

  1. Spark Streaming介绍

1.1 Spark Streaming概述

1.1.1什么是Spark Streaming

Spark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据源有很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象操作如:map、reduce、join、window等进行运算。而结果也能保存在很多地方,如HDFS,数据库等。另外Spark Streaming也能和MLlib(机器学习)以及Graphx完美融合。

1.1.2为什么要学习Spark Streaming

 

1)易用

可以像编写离线批处理一样去编写流式程序,支持java/scala/python语言。

2)容错

SparkStreaming在没有额外代码和配置的情况下可以恢复丢失的工作。

3)易整合到Spark体系

流式处理与批处理和交互式查询相结合。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/993574
推荐阅读
相关标签
  

闽ICP备14008679号