赞
踩
作者:禅与计算机程序设计艺术
Apache Spark Streaming 是 Apache Spark 提供的一个用于高吞吐量、容错的流式数据处理引擎。它可以实时的接收数据并在系统内部以微批次的方式进行处理,并将结果输出到文件、数据库或实时消息系统中。Spark Streaming 支持 Java、Scala 和 Python 编程语言。本文将详细介绍 Spark Streaming 的相关原理及功能特性,包括其核心概念和术语、架构设计、主要组件及应用场景等。最后,通过实际案例展示如何在 Hadoop Yarn 上部署和运行 Spark Streaming 流程,并对比 Spark Structured Streaming 对实时流式数据分析的优缺点。
文章假定读者具有一定的编程能力,并且熟悉 Hadoop MapReduce 或 Spark 基本的 API 操作。对于 Java 开发人员来说,还需要掌握 Java 多线程编程模型和集合框架等知识。
Apache Spark Streaming 是 Apache Spark 提供的一个用于高吞吐量、容错的流式数据处理引擎。它可以实时的接收数据并在系统内部以微批次的方式进行处理,并将结果输出到文件、数据库或实时消息系统中。Spark Streaming 使用反应式数据流(Reactive Data Stream)编程模型,它允许对实时输入的数据进行快速地、批量地、增量地处理。
Spark Streaming 可以同时支持离线数据处理和实时数据处理。它的输入数据来源可以是任何可被 Spark 支持的文件格式,比如 HDFS、Kafka、Flume、Kinesis、TCP Socket、或从其他消息队列读取。然后,S
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。