赞
踩
【跟小嘉学 Apache Flink】一、Apache Flink 介绍
Apache Flink 是一个框架和分布式处理引擎,用于对无界(Unbounded streams)和有界数据流(bounded streams)进行状态计算。Flink 被设计在所有的常见的集群环境,以内存中的速度和任意规模执行计算。
无界数据流(Unbounded streams): 可以定义数据的开始,无法定义数据的结尾,会无休止的产生数据,因此无界数据流必须会被持续处理,即数据背接受后需要立刻被处理,我们无法等待所有数据都到达后再进行处理,在处理无界时候一般会以特定的顺序及逆行处理,比如数据的产生顺序而不是数据进入处理程序的顺序,以此来推断处理结果的完整性。
有界数据流(bounded streams): 可以定义数据的开始,也可以定义数据的结尾,其非常适合需要访问全部数据才能完成计算工作的数据,同事处理有界数据流不需要有序获取数据,所以有界数据流的所有数据可以被排序,相对于无界数据流,有界数据流处理数据的有序性十分简单。
官网地址:https://flink.apache.org/
flink 发展时间线:
批处理:数据攒够了一批处理一批,比如Hive、数据库、Spark等传统数据处理方式,批处理的场景就像发邮件,一次可以说好多话,可以了解美女某段时间的心理状态。
流处理:数据来一条就实时处理一条,流处理场景就像聊天,你一句我一句,可以实时了解对方当前的心理需求。
数据量可以很大,但是不够实时;HIVE
apache storm:
用两套系统,同时保证低延迟和结果准确;
核心特点:
无须查询远程的事务性数据库,本地访问使它具有更高的时吞吐量和更低的延迟,由于定期向远处持久化存储系统写入检查点的工作可以异步,增量式完成,因此对于正常的事件处理的影响甚微。并且它的优势不仅于此,传统分层架构下,通常多个应用会共享一个数据库,因此对任何数据对修改都需要谨慎协调;反而它由于只要考虑自身数据,因此在应用更新或服务扩容对协调工作将大大减少。
提取——转换——加载(ETL)是一种在存储系统之间进行数据转换和迁移的常用方法。ETL作业通常会周期性触发,将数据从事务性数据库复制到分析型数据库或数据仓库中。
数据管道和ETL作业的用途相似,都可以转换和加载数据,并将其从某个存储系统移动到另一个。但数据管道是以持续流处理模式运行的,而非周期性触发。因此它支持一个不断生成数据的源头读取记录,并将它们以极低的延迟发送到终点。
越顶层越抽象,表达含义越简明,使用越方便;
越底层越具体,表达能力越丰富,使用越灵活;
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。