当前位置:   article > 正文

30分钟概览Spark分布式计算引擎

计算引擎

本文主要帮助初学者快速了解Spark,不会面面俱到,但核心一定点到。

详细内容可参考Spark入门教程-1

Spark是继Hadoop之后的下一代分布式内存计算引擎,于2009年诞生于加州大学伯克利分校AMPLab实验室,现在主要由Databricks公司进行维护(公司创始员工均来自AMPLab),根据本人自2014学习Spark的理解,从下面几个方面介绍。

1、为什么出现Spark?
2、Spark核心是什么?
3、Spark怎么进行分布式计算?
4、Spark在互联网公司的实践应用?

1、为什么出现Spark?

肯定是比Hadoop的MR计算要好,好在如下方面:

  • 高效
  • 多框架整合

1)为什么高效?

  • 相对于Hadoop的MR计算,Spark支持DAG,能缓存中间数据,减少数据落盘次数;
  • 使用多线程启动task,更轻量,任务启动快。计算速度理论上有10-100倍提升。(根据个人工作验证,计算效率相对Hadoop至少是3倍以上)
  • 高度抽象API,代码比MR少2-5倍甚至更多,开发效率高

2)为什么多框架整合?
相对于过去使用Hadoop + Hive + Mahout + Storm 解决批处理、SQL查询和实时处理和机器学习场景的大数据平台架构,其最

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/727409
推荐阅读
相关标签
  

闽ICP备14008679号