赞
踩
前言
spark 是 berkeley 开发的分布式计算的框架,相对于 hadoop 来说,spark 可以缓存中间结果到内存而提高某些需要迭代的计算场景的效率,目前收到广泛关注。下面来一起看看使用docker快速搭建spark集群的方法教程。
适用人群
正在使用spark的开发者
正在学习docker或者spark的开发者
准备工作
安装docker
(可选)下载java和spark with hadoop
spark集群
spark运行时架构图
如上图: spark集群由以下两个部分组成
集群管理器(mesos, yarn或者standalone mode)
工作节点(worker)
如何docker化(本例使用standalone模式)
1、将spark集群拆分
base(基础镜像)
master(主节点镜像)
worker(工作镜像)
2、编写base dockerfile
注:为方便切换版本基础镜像选择的是centos, 所以要下载java和spark, 方便调试, 可以下载好安装文件后本地搭建一个静态文件服务器, 使用node.js 的http-server可以快速搞定
命令如下
正式开始写dockerfile
3、编写master dockerfile
?
4、编写worker dockerfile
?
5、docker-compose
?
6、测试集群
访问http://localhost:50003/ 结果如图
参考链接
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家对服务器之家的支持。
原文链接:http://www.jianshu.com/p/4801bb7ab9e0
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。