当前位置:   article > 正文

Hadoop环境配置与测试_hadoop读写测试源和目标要提前配置吗

hadoop读写测试源和目标要提前配置吗
							Hadoop环境配置与测试
  • 1

Hadoop的安装方式有三种,分别是单机模式,伪分布式模式,分布式模式。
• 单机模式:Hadoop 默认模式为非分布式模式(本地模式),无需进行其他配置即可运行。非分布式即单 Java 进程,方便进行调试。
• 伪分布式模式:Hadoop 可以在单节点上以伪分布式的方式运行,Hadoop 进程以分离的 Java 进程来运行,节点既作为 NameNode 也作为 DataNode,同时,读取的是 HDFS 中的文件。
• 分布式模式:使用多个节点构成集群环境来运行Hadoop。
• 本实验采取单机伪分布式模式进行安装。

重要知识点提示:

  1. Hadoop 可以在单节点上以伪分布式的方式运行,Hadoop 进程以分离的 Java 进程来运行,节点既作为 NameNode 也作为 DataNode,同时,读取的是 HDFS 中的文件
  2. Hadoop 的配置文件位于 hadoop/etc/hadoop/ 中,伪分布式需要修改5个配置文件hadoop-env.sh、 core-site.xml 、 hdfs-site.xml 、mapred-site.xml和yarn-site.xml
  3. Hadoop的配置文件是 xml 格式,每个配置以声明 property 的 name 和 value 的方式来实现
    实验步骤:
  4. 修改配置文件:hadoop-env.sh、core-site.xml,hdfs-site.xml,mapred-site.xml、yarn-site.xml
  5. 初始化文件系统hadoop namenode -format
  6. 启动所有进程start-all.sh或者start-dfs.sh、start-yarn.sh
  7. 访问web界面,查看Hadoop信息
  8. 运行实例
  9. 停止所有实例:stop-all.sh

提示:红色代表在终端所使用的命令,蓝色代表要修改的内容。
第一步:配置Hadoop环境
1.配置Hadoop(伪分布式),修改其中的5个配置文件即可

  1. 进入到Hadoop的etc目录下
cd /bigdata/hadoop-3.1.1/etc/hadoop
  • 1

在这里插入图片描述
在这里插入图片描述
2) 修改第1个配置文

sudo vi hadoop-env.sh
  • 1

找到第54行,修改JAVA_HOME如下:

export JAVA_HOME=/opt/java/jdk1.8.0_181
  • 1

在这里插入图片描述

  1. 修改第2个配置文件
sudo vi core-site.xml
  • 1
<configuration>
  <!-- 配置hdfs的namenode的地址 -->
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost:9000</value>
  </property>

  <!-- 配置Hadoop运行时产生数据的存储目录,不是临时的数据 -->
  <property>
    <name>hadoop.tmp.dir</name>
    <value>file:/bigdata/hadoop-3.1.1/tmp</value>
  </property>
</configuration>
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  1. 修改第3个配置文件
sudo vi hdfs-site.xml
  • 1
<configuration>
 <!-- 指定HDFS存储数据的副本数据量 -->
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
<property>
        <name>dfs.namenode.http-address</name>
        <value>localhost:50070</value>
</property>

<property>
    <name>dfs.namenode.name.dir</name>
    <value>file:/bigdata/hadoop-3.1.1/tmp/dfs/name</value>
 </property>
 <property>
     <name>dfs.datanode.data.dir</name>
     <value>file:/bigdata/hadoop-3.1.1/tmp/dfs/data</value>
 </property>

</configuration>
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21

此外,伪分布式虽然只需要配置 fs.defaultFS 和 dfs.replication 就可以运行(官方教程如此),不过若没有配置 hadoop.tmp.dir 参数,则默认使用的临时目录为 /tmp/hadoo-hadoop,而这个目录在重启时有可能被系统清理掉,导致必须重新执行 format 才行。所以我们进行了设置,同时也指定 dfs.namenode.name.dir 和 dfs.datanode.data.dir,否则在接下来的步骤中可能会出错。

  1. 修改第4个配置文件:
sudo vi mapred-site.xml
  • 1
<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  1. 修改第5个配置文件
sudo vi yarn-site.xml
  • 1
<configuration>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>localhost</value>
  </property>
  
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
</configuration>
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  1. 对hdfs进行初始化(格式化HDFS)
cd /bigdata/hadoop-3.1.1/bin/
sudo ./hdfs namenode -format
  • 1
  • 2
  1. 如果提示如下信息,证明格式化成功:
    在这里插入图片描述

第五步:启动并测试Hadoop
1)
cd /bigdata/hadoop-3.1.1/sbin/

在这里插入代码片
  • 1

sbin/start-dfs.sh或者./start-dfs.sh
sbin/start-yarn.sh或者./start-yarn.sh
在这里插入图片描述
如果报以下错误,请修改下面4个文件如下
在这里插入图片描述
在/hadoop/sbin路径下:
将start-dfs.sh,stop-dfs.sh两个文件顶部添加以下参数

#!/usr/bin/env bash
HDFS_DATANODE_USER=root
HADOOP_DATANODE_SECURE_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root
  • 1
  • 2
  • 3
  • 4
  • 5

还有,start-yarn.sh,stop-yarn.sh顶部也需添加以下参数:

#!/usr/bin/env bash
YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root
  • 1
  • 2
  • 3
  • 4

修改后重启 ./start-dfs.sh,成功!

  1. 使用jps命令检查进程是否存在,总共5个进程(jps除外),每次重启,进程ID号都会不一样。如果要关闭可以使用 stop-all.sh命令。
    6532 DataNode
    6708 SecondaryNameNode
    6998 ResourceManager
    5081 org.eclipse.equinox.launcher_1.3.201.v20161025-1711.jar
    6410 NameNode
    7117 NodeManager

在这里插入图片描述
3) 访问hdfs的管理界面

localhost:50070
  • 1

在这里插入图片描述

  1. 访问yarn的管理界面
localhost:8088
  • 1

在这里插入图片描述
在这里插入图片描述

  1. 如果想停止所有服务,请输入sbin/stop-all.sh

针对 DataNode 没法启动的解决方法

./sbin/stop-dfs.sh # 关闭
rm -r ./tmp # 删除 tmp 文件,注意这会删除 HDFS 中原有的所有数据
./bin/hdfs namenode -format # 重新格式化 NameNode
./sbin/start-dfs.sh # 重启

Hadoop环境搭建参考:http://dblab.xmu.edu.cn/blog/install-hadoop/

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/429233
推荐阅读
相关标签
  

闽ICP备14008679号