当前位置:   article > 正文

大数据-计算引擎-Spark(一):概述【基于内存的大数据分析引擎】【核心模块:Spark Core、Spark SQL、Spark Streaming、Spark MLlib、GraphX】_mllib和sql与spark core的关系

mllib和sql与spark core的关系

一、Spark概述

在这里插入图片描述
Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。

在这里插入图片描述

1、Spark v.s. MapReduce

在之前的学习中,Hadoop 的 MapReduce 是大家广为熟知的计算框架,那为什么咱们还要学习新的计算框架 Spark 呢,这里就不得不提到 Spark 和 Hadoop 的关系。

1.1 从时间节点上对比

➢ Hadoop

  • 2006 年 1 月,Doug Cutting 加入 Yahoo,领导 Hadoop 的开发
  • 2008 年 1 月,Hadoop 成为 Apache 顶级项目
  • 2011 年 1.0 正式发布
  • 2012 年 3 月稳定版发布
  • 2013 年 10 月发布 2.X (Yarn)版本

➢ Spark

  • 2009 年,Spark 诞生于伯克利大学的 AMPLab 实验室
  • 2010 年,伯克利大学正式开源了 Spark 项目
  • 2013 年 6 月,Spark 成为了 Apache 基金会下的项目
  • 2014 年 2 月,Spark 以飞快的速度成为了 Apache
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/码创造者/article/detail/808639
推荐阅读
相关标签
  

闽ICP备14008679号