赞
踩
目前大数据处理场景主要有以下几种类型:
- 1、复杂的批处理(Batch Data Processing),偏重点在于处理
- 海量数据的能力,至于处理 速度可忍受,通常的时间可能是在数十分钟到数小时;
- 2、基于历史数据的交互式查询(Interactive Query),通常的时间在数十秒到数十分钟之间 ;
- 3、基于实时数据流的大数据处理(Streaming Data Processing),通常在数百毫秒到数秒之间 ;
目前对以上三种场景需求都有比较成熟的处理框架:
第一种情况可以用 Hadoop 的 MapReduce 来进行批量海量数据处理
第二种情况可以 Impala、Kylin 进行交互式查询
第三中情况可以用 Storm 分布式处理框架处理实时流式数据
以上三者都是比较独立,各自一套维护成本比较高,而 Spark 的出现能够一站式平台满意以 上需求。
第一种情况使用 Spark Core 解决
第二种情况使用 Spark SQL 解决
第三种情况使用 Spark Streaming 解决
通过以上分析,总结 Spark 场景有以下几个:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。