当前位置:   article > 正文

Spark从入门到精通第二课:Spark产生背景之Spark VS MR && SparkConf/SparkContext && Spark-shell_spark产生的背景

spark产生的背景

1、产生背景

  1. 1、产生背景:
  2. MapReduce的差劲促使了spark的产生。
  3. 1)编程:
  4. MR只有只提供给map和reduce方法处理数据,而spark中提供了80多个。
  5. 这对编程产生了质的影响:
  6. 就比如对于一个wordcount,既要写Map,又要写Reduce和驱动类。
  7. 而spark只需要一个类就可以解决,运用scala开发设置一行代码就可以搞定。
  8. 2)task级别:
  9. MR中每一个maptask和reducetask都是进程,进程启动和销毁要花大量的时间。
  10. spark的task基于线程,在每一个executor中都有一个线程池。
  11. 3)资源申请
  12. 在MR中,每个job的maptask和reducetask都需要单独的申请资源 ,资源反复申请很耗时。
  13. 在spark中,无论一个应用程序有多少个job,只需要申请一次资源即可。
  14. ##当然,spark资源的释放要所有job执行完才可以。
  15. 4)IO
  16. MR基于磁盘,Spark基于内存。所以这就造成了IO上的差异。
  17. MR的I/O频繁,比如Mapper和Reducer读取、溢写、merge、结果输出、shuffle、combiner
  18. spark的I/O较少,数据读取、结果输出,可能存在的shuffle及持久化
  19. 综上:
  20. 理想情况下,一次MR4次IO,一次spark 作业两次IO
  21. IO是很昂贵的操作,耗时间耗性能&#
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/389448
推荐阅读
相关标签
  

闽ICP备14008679号