当前位置:   article > 正文

安装Hadoop:Hadoop的单机模式、伪分布式模式——备赛笔记——2024全国职业院校技能大赛“大数据应用开发”赛项_安装hadoop单节点模式或单机伪分布模式

安装hadoop单节点模式或单机伪分布模式

前言

Hadoop包括三种安装模式:

  1. 单机模式:只在一台机器上运行,存储是采用本地文件系统,没有采用分布式文件系统HDFS;
  2. 伪分布式模式:存储采用分布式文件系统HDFS,但是,HDFS的名称节点和数据节点都在同一台机器上;
  3. 分布式模式:存储采用分布式文件系统HDFS,而且,HDFS的名称节点和数据节点位于不同机器上。

这篇笔记适合于原生 Hadoop3.1.3,主要参考了官方安装教程,步骤详细,辅以适当说明,相信按照步骤来,都能顺利安装并运行Hadoop。另外有Hadoop安装配置简略版方便有基础的读者快速完成安装。此外,小北希望友友们能多去了解一些 Linux 的知识,以后出现问题时才能自行解决。

为了方便学习,请友友们利用Linux系统中自带的firefox浏览器打开本指南进行学习。
Hadoop安装文件,可以到Hadoop官网下载hadoop-3.1.3.tar.gz。
也可以直接点击这里从百度云盘下载软件(提取码:ziyu),进入百度网盘后,进入“软件”目录,找到hadoop-3.1.3.tar.gz文件下载到本地。

可以参考小北之前的两篇博客哇~

Hadoop安装笔记1单机/伪分布式配置_Hadoop3.1.3——备赛笔记——2024全国职业院校技能大赛“大数据应用开发”赛项——任务2:离线数据处理-CSDN博客icon-default.png?t=N7T8https://blog.csdn.net/Zhiyilang/article/details/135236893?spm=1001.2014.3001.5501Hadoop安装笔记2单机/伪分布式配置_Hadoop3.1.3——备赛笔记——2024全国职业院校技能大赛“大数据应用开发”赛项——任务2:离线数据处理-CSDN博客icon-default.png?t=N7T8https://blog.csdn.net/Zhiyilang/article/details/135276305?spm=1001.2014.3001.5501

本章中小北只讲了前面两种“单机”和“伪分布式”,第三种“分布式”打算后续单独写一篇,因为这个也是搭建HADOOP的集群了,所以希望这些也能帮助到友友们~

补充——文件解压缩(对hbase文件解压缩)

注意:我这的hbase的是2.2.2版本的,点击下面的地址下载HBase2.2.2安装文件HBase官网下载地址icon-default.png?t=N7T8http://archive.apache.org/dist/hbase/
也可以直接点击这里从百度云盘下载软件(提取码:ziyu)。进入百度网盘后,进入“软件”目录,找到hbase-2.2.2-bin.tar.gz文件,下载到本地。

1,解压安装包hbase-2.2.2-bin.tar.gz至路径 /usr/local,命令如下:

  1. cd ~
  2. sudo$ tar -zxf /home/hadoop/Downloads/hbase-2.2.2-bin.tar.gz –C /usr/local

2,(为刚刚hbase压缩的文件加权力):Linux系统对文件权限有着严格的规定,如果一个用户不具备权限,将无法访问目录及其下面的文件。这时,就可以采用chown命令进行授权,让hadoop用户拥有对该目录的权限,具体命令如下:

sudo chown -R hadoop /usr/local/hbase-2.2.2

一、下载安装文件

前提:下载好hadoop的3.1.3的安装包并用PTF传送hadoop用户下下载目录

1,请使用hadoop用户登录虚拟机,并打开一个终端,执行一下命令:

  1. sudo tar -zxf ~/download/hadoop-3.1.3.tar.gz -C /usr/local # 解压到/usr/local中
  2. cd /usr/local/
  3. sudo mv ./hadoop-3.1.3/ ./hadoop # 将文件夹名改为hadoop
  4. sudo chown -R hadoop ./hadoop # 修改文件权限

  

2,输入一下命令检测Hadoop解压是否可以用,成功会显示其版本:

  1. cd /usr/local/hadoop
  2. ./bin/hadoop version

二、单击模式匹配

1,Hadoop默认模式为非分布式模式(本地模式),无需进行其他配置即可运行。Hadoop附带了丰富的例子,运行如下命令可以查看所有例子:

代码如下(示例):

  1. cd /usr/local/hadoop
  2. ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar

2,这里选择运行grep例子:

  1. cd /usr/local/hadoop
  2. mkdir input
  3. cp ./etc/hadoop/*.xml ./input # 将配置文件复制到input目录下
  4. ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep ./input ./output 'dfs[a-z.]+'
  5. cat ./output/* # 查看运行结果

三、伪分布式模式匹配 

1,修改配置文件(这两个文件在分布式模式匹配时也要修改)

这个两个文件的路径是在以下代码中:

  1. cd ~
  2. cd /usr/local/hadoop/etc/hadoop

 需要修改配置文件hdfs-site.xml,修改后的内容如下:

 vim hdfs-site.xml
  1. <configuration>
  2. <property>
  3. <name>dfs.replication</name>
  4. <value>1</value>
  5. </property>
  6. <property>
  7. <name>dfs.namenode.name.dir</name>
  8. <value>file:/usr/local/hadoop/tmp/dfs/name</value>
  9. </property>
  10. <property>
  11. <name>dfs.datanode.data.dir</name>
  12. <value>file:/usr/local/hadoop/tmp/dfs/data</value>
  13. </property>
  14. </configuration>

同样的,修改以后,core-site.xml文件的内容如下:

vim core-site.xml
  1. <configuration>
  2. <property>
  3. <name>hadoop.tmp.dir</name>
  4. <value>file:/usr/local/hadoop/tmp</value>
  5. <description>Abase for other temporary directories.</description>
  6. </property>
  7. <property>
  8. <name>fs.defaultFS</name>
  9. <value>hdfs://localhost:9000</value>
  10. </property>
  11. </configuration>

第三个文件配置:mapred-site.xml (文件路径 如上文件的存储路径) ,注意原先我怎么也找不到这个文件名,后面我把文件名mapred-site,xml.tempert(好像是这个)改为了mapred-site.xml

vim mapred-site.xml
  1. <configuration>
  2. <property>
  3. <name>mapreduce.framework.name</name>
  4. <value>yarn</value>
  5. </property>
  6. <property>
  7. <name>mapred.job.tracker</name>
  8. <value>itcast:9001</value>
  9. </property>
  10. </configuration>

第四个文件yarn-site.xml(存储路径如上所示)

  1. <configuration>
  2. <property>
  3. <name>yarn.nodemanager.aux-services</name>
  4. <value>mapreduce_shuffle</value>
  5. </property>
  6. </configuration>

最后在etc/profile文件中添加HADOOP_HOME的配置,

执行一下命令,设置java环境变量

 vim ~/.bashrc
  1. export JAVA_HOME=/home/greeneli/jdk-8u191-linux-x64/jdk1.8.0_212
  2. export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH:$HADOOP_HOME/bin

这里的dfs.replication就是指备份的份数

配置说明
Hadoop的运行方式是由配置文件决定的(运行Hadoop时会读取配置文件),因此如果需要从伪分布模式切换到非分布式模式,需要删除core-site.xml中的配置项。
此外,伪分布式虽然只需要配置fs.defaultFS和dfs.replication就可以运行(官方教程如此),不过若没有配置hadoop.tmp.dir参数,则默认使用的临时目录为/tmp/hadoop-hadoop,而这个目录在重启时有可能被系统清理掉,导致必须重新执行format才行。所以进行了设置,同时也指定dfs.namenode.name.dir和dfs.datanode.data.dir,否则在接下来的步骤中可能会出错。

2,执行名称结点格式化

 修改配置文件以后,要执行名称节点的格式化,命令如下:

  1. cd /usr/local/hadoop
  2. ./bin/hdfs namenode -format

如果格式化成功,会看到“successfully formatted”的提示信息:

未成功的:

hadoop 执行bin/hdfs namenode -format报错
格式化两边后,虚拟机宕机,打不开了

重头再来!!!
3,启动hadoop

执行下面命令启动Hadoop:

  1. cd /usr/local/hadoop
  2. ./sbin/start-dfs.sh #start-dfs.sh是个完整的可执行文件,中间没有空格

如果出现下图的SSH提示,输入yes即可:

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/酷酷是懒虫/article/detail/804452
推荐阅读
相关标签
  

闽ICP备14008679号