赞
踩
Apache Beam 是一个开放源码的统一模型,用于定义批处理和流数据并行处理管道。Apache Beam 编程模型简化了大规模数据处理的机制,使用一个开源的 Beam sdk,你可以构建一个定义管道的程序,然后由 Beam 支持的分布式处理后端执行管道,这些后端包括 Apache Flink、 Apache Spark 和 Google Cloud Dataflow。
Apache Beam 模型可提供有用的抽象,这些抽象使你无需去操心分布式处理的低层细节,例如协调各个工作器、分片数据集和其他此类任务,Dataflow 可全面管理这些低层细节,使你以专注于对数据处理作业进行逻辑组合,而不是对并行处理进行物理编排。你可以专注于你需要作业执行的任务,而不是执行作业的方式。
Beam 对于令人尴尬的并行数据处理任务特别有用,在这些任务中,问题可以被分解成许多较小的数据束,这些数据束可以独立地并行处理。你还可以使用 Beam 进行提取、转换和加载(ETL)任务和纯数据集成。这些任务对于在不同的存储介质和数据源之间移动数据、将数据转换为更理想的格式或将数据加载到新系统都很有用。
管道封装了涉及读取输入数据、转换数据和写入输出数据的整个一系列计算。输入源和输出接收器可以是相同的,也可以是不同类型的,这允许您将数据从一种格式转换为另一种格式。Apache Beam程序首先构造一个Pipeline对象,然后使用该对象作为创建管道数据集的基础。每个管道代表一个单独的、可重复的作业。
PCollection表示一个潜在的分布
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。