当前位置:   article > 正文

【大数据平台】从Hadoop到Spark安装配置教程_hadoop 3.3.6 和spark 安装

hadoop 3.3.6 和spark 安装

目录

3.java -jdk的安装

4.Hadoop以及单机配置的安装

5.Hadoop伪分布式的配置

6.Hadoop集群的配置(这里建议将后面的工具安装完成后,再配置此步骤,否则会非常痛苦)

7.Hbase及其单机模式的安装

HBase单机模式配置

8.Hive的安装

9.Scala的安装

10.sbt的安装

11.Spark的安装


在此篇文章中,将会按以下顺序配置大数据平台的相关工具:

1.VMware
2.Ubuntu
3.Java -jdk
4.Hadoop
5.Hadoop伪分布式
6.Hadoop集群(这里建议将后面的工具安装完成后,再配置此步骤,否则会非常痛苦)
7.Hbase
8.Hive
9.Scala
10.sbt
11.Spark

你可以选择前往官网下载安装包文件,或在本篇末尾找到为您提供的下载方式。

本篇安装从第3部分开始,如需要VMware和Ubuntu的安装过程请跳转到此篇文章。

3.java -jdk的安装

方法一:

使用下面的命令在当前目录位置下安装jdk:

sudo apt install openjdk-8-jdk
java -version #使用此命令查看java版本,如返回版本信息,则安装成功
  • 1
  • 2

方法二:(此版本java与sbt版本冲突)

3-1.进入JDK压缩包所在位置(这里默认放在桌面),打开终端,将其解压缩到/usr/lib/jvm目录下:

cd /usr/lib
sudo mkdir jvm #在/usr/lib目录下新建一个jvm文件夹存放JDK文件
  • 1
  • 2

3-2.在桌面打开终端:

sudo tar -zxvf ./jdk-18_linux-x64_bin.tar.gz -C /usr/lib/jvm #把JDK压缩包解压到/usr/lib/jvm目录中
  • 1

3-3.设置环境变量:

cd ~
vim ~/.bashrc
  • 1
  • 2

用vim编辑器打开后,在开头添加如下内容:

export JAVA_HOME=/usr/lib/jvm/jdk-18.0.1.1
export JRE_HOME= J A V A _ H O M E / j r e e x p o r t C L A S S P A T H = . : {JAVA\_HOME}/jre export CLASSPATH=.: JAVA_HOME/jreexportCLASSPATH=.:{JAVA_HOME}/lib: J R E _ H O M E / l i b e x p o r t P A T H = {JRE\_HOME}/lib export PATH= JRE_HOME/libexportPATH={JAVA_HOME}/bin:$PATH

保存.bashrc文件并退出vim编辑器。执行下面的命令让.bashrc文件立即生效:

source ~/.bashrc
  • 1

3-4.使用如下命令,查看JAVA版本,如正常显示则安装成功:

java -version
  • 1

4.Hadoop以及单机配置的安装

4-1.进入Hadoop压缩包的位置(这里默认在桌面),打开终端,将其解压缩到/usr/local/目录中:

sudo tar -zxvf ./hadoop-3.3.2.tar.gz -C /usr/local #将压缩包解压到/usr/local/目录中
  • 1

4-2.进入到/usr/local/目录,将解压后的文件夹更名为hadoop,并修改权限:

cd /usr/local #进入目录
sudo mv ./hadoop-3.3.2 ./hadoop #重命名文件夹
sudo chown -R hadoop ./hadoop #修改文件夹权限
  • 1
  • 2
  • 3

4-3.查看Hadoop是否可用,若可用则会显示Hadoop版本信息:

cd /usr/local/hadoop
./bin/hadoop version
  • 1
  • 2

Hadoop默认模式即为单机(非分布式)模式,无需其他配置即可运行。

5.Hadoop伪分布式的配置

5-1.修改core-site.xml配置文件,文件位置(/usr/local/hadoop/etc/hadoop)



替换为


hadoop.tmp.dir
file:/usr/local/hadoop/tmp
Abase for other temporary directories.


fs.defaultFS
hdfs://localhost:9000

5-2.修改hdfs-site.xml配置文件,文件位置(/usr/local/hadoop/etc/hadoop)



替换为


hadoop.tmp.dir


dfs.replication
1


dfs.namenode.name.dir
file:/usr/local/hadoop/tmp/dfs/name


dfs.datanode.data.dir
file:/usr/local/hadoop/tmp/dfs/data

5-3.执行NameNode格式化:

cd /usr/local/hadoop
.bin/hdfs namenode -format
  • 1
  • 2

格式化成功则提示“successfully formatted”

5-4.启动NameNode和DataNode守护进程:

cd /usr/local/hadoop
./sbin/start-dfs.sh
  • 1
  • 2

5-5.查看是否启动成功:

jps
  • 1

若启动成功则返回“NameNode”“DataNode”和“SecondaryNameNode”几个进程名字。

启动成功后,可访问Web界面http://localhost:9870查看NameNode和DataNode信息,并可在线查看HDFS中的文件。

5-6.关闭Hadoop的命令:

./sbin/stop-dfs.sh
  • 1

6.Hadoop集群的配置(这里建议将后面的工具安装完成后,再配置此步骤,否则会非常痛苦)

在配置之前,请提前在两台虚拟机上安装完成JAVA、Hadoop等。
或者也可以选择直接克隆一台出来。

6-1.将虚拟机网络设置为桥接模式:

6-2.手动设置ubuntu的ip地址,并修改ubuntu的主机名hostname:

本次ip设置为10.50.141.10与10.50.141.11,需要注意的是设置的ip要与主机ip在同一子网下。

sudo vim /etc/hostname #修改主机名
  • 1

6-3.修改/etc/hosts文件,配置主机和ip地址之间的映射关系:

6-4.重启后,互ping,查看是否配置成功:

6-5.SSH无密码登录slave节点:

6-6.配置PATH环境变量:

接下来开始正式配置集群/分布式模式,需要修改“/usr/local/hadoop/etc/hadoop”目录下的配置文件,这里仅设置正常启动所必须的设置项,包括workers 、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml共5个文件。

6-7.在/usr/local/hadoop/etc/hadoop目录下,修改workers文件:

6-8.在/usr/local/hadoop/etc/hadoop目录下,修改core-site.xml文件:

6-9.在/usr/local/hadoop/etc/hadoop目录下,修改hdfs-site.xml文件:

6-10.在/usr/local/hadoop/etc/hadoop目录下,修改mapred-site.xml文件:

6-11.在/usr/local/hadoop/etc/hadoop目录下,修改yarn-site.xml文件:

6-12.删除master节点的hadoop日志文件,再将整个hadoop压缩复制,传送到slave节点:

6-13.在slave节点上,将其解压到/usr/local/目录中并修改权限:

6-14.在master节点上,格式化名称节点并启动Hadoop:

6-15.在master节点上,关闭Hadoop:

7.Hbase及其单机模式的安装

7-1.进入Hbase压缩包的位置(这里默认在桌面),打开终端,将其解压缩到/usr/local/目录中:

sudo tar -zxvf ./hbase-2.4.12-bin.tar.gz -C /usr/local
  • 1

7-2.将解压的文件夹重命名为hbase,并赋予权限:

cd /usr/local
sudo mv ./hbase-2.4.12 ./hbase #更改文件夹名字
sudo chown -R hadoop ./hbase #赋予权限
  • 1
  • 2
  • 3

7-3.配置环境变量(vim ~/.bashrc):

在PATH中追加如下内容:

:/usr/local/hbase/bin

使用此命令,使环境变量文件立即生效:

source ~/.bashrc
  • 1

7-4.查看HBase版本,确定HBase安装是否成功:

/usr/local/hbase/bin/hbase version
  • 1

HBase单机模式配置

7-5.修改hbase-env.sh配置文件(文件位置/usr/local/hbase/conf/hbase-env.sh)

在文件中添加如下内容,原文件已有此配置,可删除语句前的“#”开启,或直接添加下面的内容
export JAVA_HOME=/usr/lib/jvm/jdk-8-openjdk-amd64
export HBASE_MANAGES_ZK=ture

7-6.修改hbase-site.xml配置文件(文件位置/usr/local/hbase/conf/hbase-env.sh)

在此文件中指定HBase数据的储存位置,在文件中添加如下内容

hbase.rootdir file:///usr/local/hbase/hbase-tmp

7-7.测试运行HBase

切换至HBase安装目录/usr/local/hbase,并启动HBase:

cd /usr/local/hbase
bin/start-hbase.sh #启动hbase
bin/hbase shell #打开hbase shell
bin/stop-hbase.sh #停止hbase运行
  • 1
  • 2
  • 3
  • 4

若终端的提示符变为“hbase:001:0>”则为安装成功.

8.Hive的安装

9.Scala的安装

9-1.进入Scala压缩包的位置(这里默认在桌面),打开终端,将其解压缩到/usr/local/目录中:

sudo tar -zxvf ./scala3-3.1.2.tar.gz -C /usr/local #将压缩包解压到/usr/local/目录中
  • 1

9-2.进入到/usr/local/目录,将解压后的文件夹更名为scala,并修改权限:

cd /usr/local #进入目录
sudo mv ./scala3-3.1.2 ./scala #重命名文件夹
sudo chown -R hadoop ./scala #修改文件夹权限
  • 1
  • 2
  • 3

9-3.启动scala交互执行环境:

cd /usr/local/scala
./bin/scala
  • 1
  • 2

此时命令提示符显示为“scala>”即为安装成功。

退出scala交互,执行如下命令:

:quit   #注意quit前的“:”
  • 1

10.sbt的安装

10-1.进入Sbt压缩包的位置(这里默认在桌面),打开终端,将其解压缩到/usr/local/目录中,并修改权限:

sudo unzip -n sbt-1.6.2.zip -d /usr/local #将压缩包解压到/usr/local/目录中
sudo chown -R hadoop /usr/local/sbt #hadoop为用户名
  • 1
  • 2

10-2.将bin目录下的sbt-launch.jar复制到sbt的安装目录下:

cd /usr/local/sbt
cp ./bin/sbt-launch.jar ./
  • 1
  • 2

10-3.在安装目录下使用vim命令创建一个Shell脚本文件,用于启动sbt:

vim /usr/local/sbt/sbt
  • 1

文件内容如下:(-XX:MaxPermSize=256M此选项在JDK 8中已弃用,并由该-XX:MetaspaceSize选项取代。)

#!/bin/bash
SBT_OPTS=“-Xms512M -Xmx1536M -Xss1M -XX:+CMSClassUnloadingEnabled -XX:MetaspaceSize=256M”
java $SBT_OPTS -jar `dirname 0 / ˋ s b t − l a u n c h . j a r " 0\`/sbt-launch.jar " 0/ˋsbtlaunch.jar"@"

10-4.为Shell文件增加可执行权限:

chmod u+x /usr/local/sbt/sbt
  • 1

10-5.执行Shell文件,启动sbt:(这里不使用./sbt sbt-version)

./sbt sbtVersion
  • 1

11.Spark的安装

11-1.进入Spark压缩包的位置(这里默认在桌面),打开终端,将其解压缩到/usr/local/目录中:

sudo tar -zxvf ./spark-3.2.1-bin-hadoop3.2.tgz -C /usr/local #将压缩包解压到/usr/local/目录中
  • 1

11-2.进入/usr/local/目录,重命名解压后的文件夹,并修改权限:

cd /usr/local #进入目录
sudo mv ./spark-3.2.1-bin-hadoop3.2 ./spark #重命名文件夹
sudo chown -R hadoop ./spark #修改文件夹权限
  • 1
  • 2
  • 3

11-3.修改Spark配置文件spark-env.sh:

cd /usr/local/spark/conf #进入spark的conf目录,修改配置文件
cp ./spark-env.sh.template ./spark-env.sh #将配置文件spark-env.sh.template复制后并命名为spark-env.sh
  • 1
  • 2

编辑spark-env.sh文件(vim ./spark-env.sh),在第一行添加下面内容:

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

11-4.通过运行自带的实例,检验是否安装成功:

cd /usr/local/spark
bin/run-example SparkPi 2>&1 | grep "Pi is" #运行自带的实例
  • 1
  • 2

若返回“Pi”的值,则安装成功。

11-5.启动spark-shell命令:

cd /usr/local/spark
bin/spark-shell
  • 1
  • 2

11-6.退出spark-shell命令:

:quit
  • 1

文件名

下载链接

提取码

jdk-18_linux-x64_bin.tar.gz

https://caiyun.139.com/m/i?0Y5CsEx1P0c2E

KAfC

hadoop-3.3.2.tar.gz

https://caiyun.139.com/m/i?0Y5CffZha2e62

FUYC

hbase-2.4.12-bin.tar.gz

https://caiyun.139.com/m/i?0Y5CrH3d5aGwk

bwSa

apache-hive-3.1.3-bin.tar.gz

https://caiyun.139.com/m/i?0Y5CsYxWpefq9

1EQH

scala3-3.1.2.tar.gz

https://caiyun.139.com/m/i?0Y5CffZctNOsQ

f7L2

sbt-1.6.2.zip

https://caiyun.139.com/m/i?0Y5CsYxS8zQcv

ojTc

spark-3.2.1-bin-hadoop3.2.tgz

https://caiyun.139.com/m/i?0Y5CrusM7m4SE

hBfH

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/567975
推荐阅读
相关标签
  

闽ICP备14008679号