30分钟概览Spark分布式计算引擎

作者：盐析白兔 | 2024-06-16 16:37:35

踩

计算引擎

本文主要帮助初学者快速了解Spark，不会面面俱到，但核心一定点到。

详细内容可参考Spark入门教程-1

Spark是继Hadoop之后的下一代分布式内存计算引擎，于2009年诞生于加州大学伯克利分校AMPLab实验室，现在主要由Databricks公司进行维护（公司创始员工均来自AMPLab），根据本人自2014学习Spark的理解，从下面几个方面介绍。

1、为什么出现Spark？
2、Spark核心是什么？
3、Spark怎么进行分布式计算？
4、Spark在互联网公司的实践应用？

肯定是比Hadoop的MR计算要好，好在如下方面：

1）为什么高效？

2）为什么多框架整合？
相对于过去使用Hadoop + Hive + Mahout + Storm 解决批处理、SQL查询和实时处理和机器学习场景的大数据平台架构，其最

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/盐析白兔/article/detail/727409