win10 64位系统下，搭建spark环境，并配置python+pycharm开发环境

作者：繁依Fanyi0 | 2024-06-22 02:05:06

踩

因为个人需要，想要学习大数据的处理知识，在学习之前首先要搭建基本软件环境。

目前用的比较广泛的大数据平台基本都是基于hadoop生态圈的一系列软件，不过这两年spark异军突起，比hadoop生态中的MR的处理方式要快非常多，而且spark中的SQL、streaming、MLlib、GraphX等组件功能十分强大，所以选择搭建以spark为基础的大数据处理环境。

一、系统环境

理论上说，无论是hadoop，spark还是其他的分布式架构的大数据处理平台，最佳系统环境都是linux。不过我自己只是需要一个初步的仿真环境，能够便于学习spark的入门知识，并且基于小批量的数据实现简单的业务逻辑，之后才是考虑如何真正把spark部署到生产环境中。加上spark支持的java、python、scala这些开发语言都是跨平台的，代码迁移起来比较简单。

考虑上述需求，加上大多数人都是以windows作为自己最常用的系统，仿真环境也打算部署在我自己的pc上。

最终系统环境为：win10 64位系统。

二、部署spark环境

在windows上运行spark平台，需要同时部署java开发环境、spark环境、hadoop环境。

（一）安装java

访问网址：http://www.oracle.com/technetwork/java/javase/downloads/index.html，点击你想要安装版本的下载链接。

这里我选的是Java SE 8u151/ 8u152版本，可以看到同一版本的java下有三个不同的下载链接，分别是jdk、server jre和jre。关于jdk和jre的区别，可以阅读这篇博客：http://blog.csdn.net/zl386119974/article/details/18088867，我在这里选择的是jdk。

下载完成后，双击exe文件安装，安装过程不再赘述。

安装结束后，需要配置对应的java环境变量，配置方式如下：

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/744969