当前位置:   article > 正文

Hadoop+Spark 大数据分析(一)之 虚拟机安装及Java环境的配置_vmware虚拟机上基于spark的大数据分析

vmware虚拟机上基于spark的大数据分析

文章目录


前言

为了学习大数据下的数据分析,第一次尝试搭建完全分布式的Hadoop,其中各种常见的不常见的奇葩bug十分恼人。先将完整的过程记录下来,帮助后来人少一些搭建环境上的痛苦,专注于核心的事情。此文于2021年5月27日编辑,请各位注意时效性。


提示:以下是本篇文章正文内容,下面案例可供参考

一、系统环境

macOS: Big Sur 11.3.1 内存16g
虚拟机平台:VMware Fusion
虚拟机系统:CentOS 8
jdk:java-1.8.0-openjdk-1.8.0.252.b09-2.el7_8.x86_64
Hadoop:  Hadoop 3.3.0

二、系统设计

本文使用3台装有CentOS 8的VMware虚拟机,实现完全分布式的hadoop集群,个虚拟机的主机名为master,slaver001,slaver002, IP为 192.168.148.101~103

1.主机分配

host ip hostname os
CentOS-8-01 192.168.148.101 master CentOS 8
CentOS-8-02 192.168.148.102 slaver001 CentOS 8
CentOS-8-03 192.168.148.103 slaver002 CentOS 8

2.功能分配

 

  master slaver001 slaver002
HDFS

nameNode

dataNode

SecondaryNameNode

dataNode

dataNode
YARN nodeManager nodeManager

resourceManager

nodeManager

 

三、 环境准备

如上,我们需要3台虚拟机。首先不要急于创建3个虚拟机,我们先创建一个虚拟机,配置好相关环境(Java,Hadoop等),通过虚拟机软件的克隆功能,再克隆出2台。

1.安装虚拟机

打开VMware Fusion,点击+,选择新建

CentOS下载地址:http://isoredirect.centos.org/centos/8/isos/x86_64/CentOS-8.1.1911-x86_64-dvd1.iso

将下载好的文件拖入,建议选择迅雷下载,比浏览器下载快不少。

点击“继续”

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号