赞
踩
因为个人需要,想要学习大数据的处理知识,在学习之前首先要搭建基本软件环境。
目前用的比较广泛的大数据平台基本都是基于hadoop生态圈的一系列软件,不过这两年spark异军突起,比hadoop生态中的MR的处理方式要快非常多,而且spark中的SQL、streaming、MLlib、GraphX等组件功能十分强大,所以选择搭建以spark为基础的大数据处理环境。
一、系统环境
理论上说,无论是hadoop,spark还是其他的分布式架构的大数据处理平台,最佳系统环境都是linux。不过我自己只是需要一个初步的仿真环境,能够便于学习spark的入门知识,并且基于小批量的数据实现简单的业务逻辑,之后才是考虑如何真正把spark部署到生产环境中。加上spark支持的java、python、scala这些开发语言都是跨平台的,代码迁移起来比较简单。
考虑上述需求,加上大多数人都是以windows作为自己最常用的系统,仿真环境也打算部署在我自己的pc上。
最终系统环境为:win10 64位系统。
二、部署spark环境
在windows上运行spark平台,需要同时部署java开发环境、spark环境、hadoop环境。
(一)安装java
访问网址:http://www.oracle.com/technetwork/java/javase/downloads/index.html,点击你想要安装版本的下载链接。
这里我选的是Java SE 8u151/ 8u152版本,可以看到同一版本的java下有三个不同的下载链接,分别是jdk、server jre和jre。关于jdk和jre的区别,可以阅读这篇博客:http://blog.csdn.net/zl386119974/article/details/18088867,我在这里选择的是jdk。
下载完成后,双击exe文件安装,安装过程不再赘述。
安装结束后,需要配置对应的java环境变量,配置方式如下:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。