当前位置:   article > 正文

Hadoop简介和集群搭建测试(一)_hadoop 测试(一)

hadoop 测试(一)

Hadoop的优势有四高

(1) 高可用: Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元 素或存储出现故障,也不会导致数据的丢失

(2) 高扩展: 在集群间分配任务数据,可方便的扩展数以千计的节点

(3) 高效性:  在MapReduce的思想下,Hadoop是并行工作的,以加快任务处 理速度

(4) 高容错性:  能够自动将失败的任务重新分配。

Hadoop组成

HDFS 架构概述:

Hadoop Distributed File System,简称 HDFS,是一个分布式文件系统。

(1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、 文件权限),以及每个文件的块列表和块所在的DataNode等

2)DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和

3)Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份
YARN 架构概述:

Yet Another Resource Negotiator 简称 YARN ,另一种资源协调者,是 Hadoop 的资源管理器。

MapReduce 架构概述 MapReduce 将计算过程分为两个阶段:Map 和 Reduce

1)Map 阶段并行处理输入数据

2)Reduce 阶段对 Map 结果进行汇总

HDFS、YARN、MapReduce 三者关系:

大数据技术生态体系:

 1)Sqoop:Sqoop 是一款开源的工具,主要用于在 Hadoop、Hive 与传统的数据库(MySQL) 间进行数据的传递,可以将一个关系型数据库(例如 :MySQL,Oracle 等)中的数据导进 到 Hadoop 的 HDFS 中,也可以将 HDFS 的数据导进到关系型数据库中。

2)Flume:Flume 是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统, Flume 支持在日志系统中定制各类数据发送方,用于收集数据;

3)Kafka:Kafka 是一种高吞吐量的分布式发布订阅消息系统;

4)Spark:Spark 是当前最流行的开源大数据内存计算框架。可以基于 Hadoop 上存储的大数 据进行计算。

5)Flink:Flink 是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。

6)Oozie:Oozie 是一个管理 Hadoop 作业(job)的工作流程调度管理系统。

7)Hbase:HBase 是一个分布式的、面向列的开源数据库。HBase 不同于一般的关系数据库, 它是一个适合于非结构化数据存储的数据库。

8)Hive:Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张 数据库表,并提供简单的 SQL 查询功能,可以将 SQL 语句转换为 MapReduce 任务进行运 行。其优点是学习成本低,可以通过类 SQL 语句快速实现简单的 MapReduce 统计,不必开 发专门的 MapReduce 应用,十分适合数据仓库的统计分析。

9)ZooKeeper:它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、 名字服务、分布式同步、组服务等

Hadoop 运行环境搭建

(1) 安装模板虚拟机,IP 地址 192.168.10.100、主机名称 hadoop100、内存 4G、硬盘 100G

(2) 安装epel-release

(3) 关闭防火墙

(4)创建yhd用户

(5)配置yhd用户拥有root权限,后面sudo执行方便

(6) 创建module和software文件夹用来存放软件包和解压后的程序

(7)修改/opt目录下的属组和属主

(8)卸载虚拟机自带的jdk

rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps

虚拟机克隆 :hadoop102 hadoop103 hadoop104

以hadoop100为模板进行克隆,下面以hadoop102为例进行配置修改如下

(1) 修改IP地址(nmtui 或者vim /etc/sysconfig/network-scripts/ifcfg-ens32)

(2)修改主机名(hostnamectl set-hostname hadoop102)

(3) 修改主机名映射 /etc/hosts

127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.10.100 hadoop100
192.168.10.101 hadoop101
192.168.10.102 hadoop102
192.168.10.103 hadoop103
192.168.10.104 hadoop104
192.168.10.105 hadoop105
192.168.10.106 hadoop106
192.168.10.107 hadoop107
192.168.10.108 hadoop108
(4)修改windows的hosts文件,将映射主机信息添加到hosts文科中

192.168.10.100 hadoop100
192.168.10.101 hadoop101
192.168.10.102 hadoop102
192.168.10.103 hadoop103
192.168.10.104 hadoop104
192.168.10.105 hadoop105
192.168.10.106 hadoop106
192.168.10.107 hadoop107
192.168.10.108 hadoop108

(5)hadoop102s上传解压安装jdk和hadoop

  1. [yhd@hadoop102 software]$ ll
  2. total 520600
  3. -rw-r--r--. 1 yhd yhd 338075860 Feb 24 09:00 hadoop-3.1.3.tar.gz
  4. -rw-r--r--. 1 yhd yhd 195013152 Feb 24 09:09 jdk-8u212-linux-x64.tar.gz
  5. [yhd@hadoop102 software]$ ll ../module/
  6. total 0
  7. drwxr-xr-x. 13 yhd yhd 204 Mar 20 19:56 hadoop-3.1.3
  8. drwxr-xr-x. 7 yhd yhd 245 Apr 2 2019 jdk1.8.0_212

(6) 配置环境变量并source使其生效

  1. [yhd@hadoop102 ~]$ vim /etc/profile.d/my_env.sh
  2. #JAVA_HOME
  3. export JAVA_HOME=/opt/module/jdk1.8.0_212
  4. export PATH=$PATH:$JAVA_HOME/bin
  5. #HADOOP_HOME
  6. export HADOOP_HOME=/opt/module/hadoop-3.1.3
  7. export PATH=$PATH:$HADOOP_HOME/bin
  8. export PATH=$PATH:$HADOOP_HOME/sbin
  9. [yhd@hadoop102 ~]$ source /etc/profile.d/my_env.sh

(7)测试是否生效

(8)查看hadoop的目录结构

  1. [yhd@hadoop102 hadoop-3.1.3]$ ll
  2. total 180
  3. drwxr-xr-x. 2 yhd yhd 183 Sep 12 2019 bin
  4. drwxrwxr-x. 4 yhd yhd 37 Mar 20 19:57 data
  5. drwxr-xr-x. 3 yhd yhd 20 Sep 12 2019 etc
  6. drwxr-xr-x. 2 yhd yhd 106 Sep 12 2019 include
  7. drwxr-xr-x. 3 yhd yhd 20 Sep 12 2019 lib
  8. drwxr-xr-x. 4 yhd yhd 288 Sep 12 2019 libexec
  9. -rw-rw-r--. 1 yhd yhd 147145 Sep 4 2019 LICENSE.txt
  10. drwxrwxr-x. 3 yhd yhd 4096 Mar 20 19:57 logs
  11. -rw-rw-r--. 1 yhd yhd 21867 Sep 4 2019 NOTICE.txt
  12. -rw-rw-r--. 1 yhd yhd 1366 Sep 4 2019 README.txt
  13. drwxr-xr-x. 3 yhd yhd 4096 Sep 12 2019 sbin
  14. drwxr-xr-x. 4 yhd yhd 31 Sep 12 2019 share

重要目录

(1)bin 目录:存放对 Hadoop 相关服务(hdfs,yarn,mapred)进行操作的脚本

(2)etc 目录:Hadoop 的配置文件目录,存放 Hadoop 的配置文件

(3)lib 目录:存放 Hadoop 的本地库(对数据进行压缩解压缩功能)

(4)sbin 目录:存放启动或停止 Hadoop 相关服务的脚本

(5)share 目录:存放 Hadoop 的依赖 jar 包、文档、和官方案例

(9) 配置时钟同步(ntp)并设置开机自启

(10) SSH 无密登录配置

yhd和root两个用户都要进行分发公钥

(11) xsync 集群分发脚本

  1. [yhd@hadoop102 ~]$ mkdir bin
  2. [yhd@hadoop102 ~]$ cd bin
  3. [yhd@hadoop102 bin]$ vim xsync
  4. #!/bin/bash
  5. #1. 判断参数个数
  6. if [ $# -lt 1 ]
  7. then
  8. echo Not Enough Arguement!
  9. exit;
  10. fi
  11. #2. 遍历集群所有机器
  12. for host in hadoop102 hadoop103 hadoop104
  13. do
  14. echo ==================== $host ====================
  15. #3. 遍历所有目录,挨个发送
  16. for file in $@
  17. do
  18. #4. 判断文件是否存在
  19. if [ -e $file ]
  20. then
  21. #5. 获取父目录
  22. pdir=$(cd -P $(dirname $file); pwd)
  23. #6. 获取当前文件的名称
  24. fname=$(basename $file)
  25. ssh $host "mkdir -p $pdir"
  26. rsync -av $pdir/$fname $host:$pdir
  27. else
  28. echo $file does not exists!
  29. fi
  30. done
  31. done

(12)赋权并执行

(13)将/opt/的软件包和解压文件以及配置信息拷贝分发到103和104上并验证

Hadoop 集群配置

1. 集群部署规划

(1) NameNode 和 SecondaryNameNode 不要安装在同一台服务器

(2)ResourceManager 也很消耗内存,不要和 NameNode、SecondaryNameNode 配置在 同一台机器上

2. 配置文件说明

Hadoop 配置文件分两类:默认配置文件和自定义配置文件,只有用户想修改某一默认 配置值时,才需要修改自定义配置文件,更改相应属性值

默认配置文件:

自定义配置文件:

          core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml 四个配置文件存放在 $HADOOP_HOME/etc/hadoop 这个路径上,用户可以根据项目需求重新进行修改配置。

(1) 配置 core-site.xml

  1. <configuration>
  2. <!-- 指定 NameNode 的地址 -->
  3. <property>
  4. <name>fs.defaultFS</name>
  5. <value>hdfs://hadoop102:8020</value>
  6. </property>
  7. <!-- 指定 hadoop 数据的存储目录 -->
  8. <property>
  9. <name>hadoop.tmp.dir</name>
  10. <value>/opt/module/hadoop-3.1.3/data</value>
  11. </property>
  12. </configuration>

(2)配置hdfs-site.xml

  1. <configuration>
  2. <!-- nn web 端访问地址-->
  3. <property>
  4. <name>dfs.namenode.http-address</name>
  5. <value>hadoop102:9870</value>
  6. </property>
  7. <!-- 2nn web 端访问地址-->
  8. <property>
  9. <name>dfs.namenode.secondary.http-address</name>
  10. <value>hadoop104:9868</value>
  11. </property>
  12. </configuration>

(3)配置yarn-site.xml

  1. <configuration>
  2. <!-- Site specific YARN configuration properties -->
  3. <!-- 指定 MR 走 shuffle -->
  4. <property>
  5. <name>yarn.nodemanager.aux-services</name>
  6. <value>mapreduce_shuffle</value>
  7. </property>
  8. <!-- 指定 ResourceManager 的地址-->
  9. <property>
  10. <name>yarn.resourcemanager.hostname</name>
  11. <value>hadoop103</value>
  12. </property>
  13. <!-- 环境变量的继承 -->
  14. <property>
  15. <name>yarn.nodemanager.env-whitelist</name>
  16. <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
  17. </property>
  18. </configuration>

(4) 配置 mapred-site.xml

  1. <configuration>
  2. <!-- 指定 MapReduce 程序运行在 Yarn 上 -->
  3. <property>
  4. <name>mapreduce.framework.name</name>
  5. <value>yarn</value>
  6. </property>
  7. </configuration>

(5)配置works文件

  1. [root@hadoop102 hadoop]# vim workers
  2. hadoop102
  3. hadoop103
  4. hadoop104

 (6)在集群上分发配置好的 Hadoop 配置文件 

  1. [yhd@hadoop102 hadoop]$ xsync /opt/module/hadoop-3.1.3/etc
  2. ==================== hadoop102 ====================
  3. sending incremental file list
  4. sent 910 bytes received 19 bytes 1,858.00 bytes/sec
  5. total size is 107,468 speedup is 115.68
  6. ==================== hadoop103 ====================
  7. sending incremental file list
  8. etc/
  9. etc/hadoop/
  10. etc/hadoop/workers
  11. sent 993 bytes received 54 bytes 2,094.00 bytes/sec
  12. total size is 107,468 speedup is 102.64
  13. ==================== hadoop104 ====================
  14. sending incremental file list
  15. etc/
  16. etc/hadoop/
  17. etc/hadoop/workers
  18. sent 993 bytes received 54 bytes 698.00 bytes/sec
  19. total size is 107,468 speedup is 102.64
  20. [yhd@hadoop102 hadoop]$

(7)验证查看

(8) 启动集群

      1.  如果集群是第一次启动,需要在 hadoop102 节点格式化 NameNode(注意:格式 化 NameNode,会产生新的集群 id,导致 NameNode 和 DataNode 的集群 id 不一致,集群找 不到已往数据.如果集群在运行过程中报错,需要重新格式化 NameNode 的话,一定要先停 止 namenode 和 datanode 进程,并且要删除所有机器的 data 和 logs 目录,然后再进行格式 化)

  1. [yhd@hadoop102 hadoop-3.1.3]$ hdfs namenode -format
  2. WARNING: /opt/module/hadoop-3.1.3/logs does not exist. Creating.
  3. 2021-03-20 19:56:01,526 INFO namenode.NameNode: STARTUP_MSG:
  4. /************************************************************
  5. STARTUP_MSG: Starting NameNode
  6. STARTUP_MSG: host = hadoop102/192.168.10.102
  7. STARTUP_MSG: args = [-format]
  8. STARTUP_MSG: version = 3.1.3
  9. STARTUP_MSG: classpath = /opt/module/hadoop-3.1.3/etc/hadoop:/opt/module/hadoop-3.1.3/share/hadoop/common/lib/accessors-smart-1.2.jar:/opt/module/hadoop-3.1.3/share/hadoop/common/lib/animal-sniffer-annotations-1.17.j

       2.启动hdfs

  1. [yhd@hadoop102 hadoop-3.1.3]$ sbin/start-dfs.sh
  2. Starting namenodes on [hadoop102]
  3. Starting datanodes
  4. hadoop103: WARNING: /opt/module/hadoop-3.1.3/logs does not exist. Creating.
  5. hadoop104: WARNING: /opt/module/hadoop-3.1.3/logs does not exist. Creating.
  6. Starting secondary namenodes [hadoop104]
  7. [yhd@hadoop102 hadoop-3.1.3]$ jps
  8. 12433 DataNode
  9. 12660 Jps
  10. 12266 NameNode

      3.启动yarn(在hadoop103)

  1. [yhd@hadoop103 hadoop]$ sbin/start-yarn.sh
  2. [yhd@hadoop103 hadoop]$ jps
  3. 11762 Jps
  4. 9801 DataNode
  5. 9993 ResourceManager
  6. 10126 NodeManager

     4. web查看 HDFS 的 NameNode

    5. Web 端查看 YARN 的 ResourceManager 

(9) 集群测试

上传文件到集群

  1. [yhd@hadoop102 ~]$ hadoop fs -put $HADOOP_HOME/wcinput/word.txt /input
  2. 2021-03-20 19:58:39,234 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false
  3. [yhd@hadoop102 ~]$hadoop fs -put /opt/software/jdk-8u212-linux-x64.tar.gz /
  4. 2021-03-20 19:59:22,656 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false
  5. 2021-03-20 19:59:24,974 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false

  6. 上传文件后查看文件存放在什么位置

  1. [yhd@hadoop102 subdir0]$ pwd
  2. /opt/module/hadoop-3.1.3/data/dfs/data/current/BP-510334103-192.168.10.102-1616241362316/current/finalized/subdir0/subdir0
  3. [yhd@hadoop102 subdir0]$ ll
  4. total 192208
  5. -rw-rw-r--. 1 yhd yhd 46 Mar 20 19:58 blk_1073741825
  6. -rw-rw-r--. 1 yhd yhd 11 Mar 20 19:58 blk_1073741825_1001.meta
  7. -rw-rw-r--. 1 yhd yhd 134217728 Mar 20 19:59 blk_1073741826
  8. -rw-rw-r--. 1 yhd yhd 1048583 Mar 20 19:59 blk_1073741826_1002.meta
  9. -rw-rw-r--. 1 yhd yhd 60795424 Mar 20 19:59 blk_1073741827
  10. -rw-rw-r--. 1 yhd yhd 474975 Mar 20 19:59 blk_1073741827_1003.meta
  11. -rw-rw-r--. 1 yhd yhd 38 Mar 20 20:04 blk_1073741834
  12. -rw-rw-r--. 1 yhd yhd 11 Mar 20 20:04 blk_1073741834_1010.meta
  13. -rw-rw-r--. 1 yhd yhd 439 Mar 20 20:04 blk_1073741835
  14. -rw-rw-r--. 1 yhd yhd 11 Mar 20 20:04 blk_1073741835_1011.meta
  15. -rw-rw-r--. 1 yhd yhd 25306 Mar 20 20:04 blk_1073741836
  16. -rw-rw-r--. 1 yhd yhd 207 Mar 20 20:04 blk_1073741836_1012.meta
  17. -rw-rw-r--. 1 yhd yhd 214462 Mar 20 20:04 blk_1073741837
  18. -rw-rw-r--. 1 yhd yhd 1683 Mar 20 20:04 blk_1073741837_1013.meta
  19. [yhd@hadoop102 subdir0]$

  7.查看 HDFS 在磁盘存储文件内容

  1. [yhd@hadoop102 subdir0]$ cat blk_1073741825
  2. hadoop yarn
  3. hadoop mapreduce
  4. atguigu
  5. atguigu

 8. 执行wordcount程序

  1. [yhd@hadoop102 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output
  2. 2021-03-20 20:03:51,652 INFO client.RMProxy: Connecting to ResourceManager at hadoop103/192.168.10.103:8032
  3. 2021-03-20 20:03:52,181 INFO mapreduce.JobResourceUploader: Disabling Erasure Coding for path: /tmp/hadoop-yarn/staging/yhd/.staging/job_1616241436786_0001
  4. 2021-03-20 20:03:52,272 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false
  5. 2021-03-20 20:03:52,407 INFO input.FileInputFormat: Total input files to process : 1
  6. 2021-03-20 20:03:52,435 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false

   9.查看计算服务运行情况

10.查看hdfs是不是有数据

11.配置历史服务器(上述历史服务器配没有配置,所以history点击跳转失败)

编辑 [yhd@hadoop102 hadoop]$ vim mapred-site.xml 

  1. <configuration>
  2. <!-- 指定 MapReduce 程序运行在 Yarn 上 -->
  3. <property>
  4. <name>mapreduce.framework.name</name>
  5. <value>yarn</value>
  6. </property>
  7. <!-- 历史服务器端地址 -->
  8. <property>
  9. <name>mapreduce.jobhistory.address</name>
  10. <value>hadoop102:10020</value>
  11. </property>
  12. <!-- 历史服务器 web 端地址 -->
  13. <property>
  14. <name>mapreduce.jobhistory.webapp.address</name>
  15. <value>hadoop102:19888</value>
  16. </property>
  17. </configuration>

分发配置

  1. [yhd@hadoop102 hadoop]$ xsync /opt/module/hadoop-3.1.3/etc/hadoop/mapred-site.xml
  2. ==================== hadoop102 ====================
  3. sending incremental file list
  4. sent 64 bytes received 12 bytes 152.00 bytes/sec
  5. total size is 1,170 speedup is 15.39
  6. ==================== hadoop103 ====================
  7. sending incremental file list
  8. mapred-site.xml
  9. sent 585 bytes received 47 bytes 1,264.00 bytes/sec
  10. total size is 1,170 speedup is 1.85
  11. ==================== hadoop104 ====================
  12. sending incremental file list
  13. mapred-site.xml
  14. sent 585 bytes received 47 bytes 1,264.00 bytes/sec
  15. total size is 1,170 speedup is 1.85
  16. [yhd@hadoop102 hadoop]$

在 hadoop102 启动历史服务器

  1. [yhd@hadoop102 hadoop-3.1.3]$ bin/mapred --daemon start historyserver
  2. [yhd@hadoop102 hadoop-3.1.3]$ jps
  3. 12433 DataNode
  4. 15666 JobHistoryServer
  5. 12266 NameNode
  6. 12733 NodeManager
  7. 15725 Jps

新建任务

  1. [yhd@hadoop102 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output1
  2. 2021-03-20 22:33:14,973 INFO client.RMProxy: Connecting to ResourceManager at hadoop103/192.168.10.103:8032
  3. 2021-03-20 22:33:16,139 INFO mapreduce.JobResourceUploader: Disabling Erasure Coding for path: /tmp/hadoop-yarn/staging/yhd/.staging/job_1616241436786_0002
  4. 2021-03-20 22:33:16,274 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false
  5. 2021-03-20 22:33:17,351 INFO input.FileInputFormat: Total input files to process : 1
  6. 2021-03-20 22:33:17,405 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false
  7. 2021-03-20 22:33:17,586 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false
  8. 2021-03-20 22:33:17,664 INFO mapreduce.JobSubmitter: number of splits:1

查看hdfs页面

再次测试历史服务器是否好用

点击logs提示如下,需要配置日志的聚集功能

配置日志聚集功能

日志聚集概念:应用运行完成以后,将程序运行日志信息上传到 HDFS 系统上

日志聚集功能好处:可以方便的查看到程序运行详情,方便开发调试

开启日志聚集功能,需要重新启动 NodeManager 、ResourceManager 和 HistoryServer

    配置 [yhd@hadoop102 hadoop]$ vim yarn-site.xml

  1. <!-- 开启日志聚集功能 -->
  2. <property>
  3. <name>yarn.log-aggregation-enable</name>
  4. <value>true</value>
  5. </property>
  6. <!-- 设置日志聚集服务器地址 -->
  7. <property>
  8. <name>yarn.log.server.url</name>
  9. <value>http://hadoop102:19888/jobhistory/logs</value>
  10. </property>
  11. <!-- 设置日志保留时间为 7 天 -->
  12. <property>
  13. <name>yarn.log-aggregation.retain-seconds</name>
  14. <value>604800</value>
  15. </property>

分发到另外两台服务器上

  1. [yhd@hadoop102 hadoop]$ xsync yarn-site.xml
  2. ==================== hadoop102 ====================
  3. sending incremental file list
  4. sent 62 bytes received 12 bytes 148.00 bytes/sec
  5. total size is 1,621 speedup is 21.91
  6. ==================== hadoop103 ====================
  7. sending incremental file list
  8. yarn-site.xml
  9. sent 1,034 bytes received 47 bytes 720.67 bytes/sec
  10. total size is 1,621 speedup is 1.50
  11. ==================== hadoop104 ====================
  12. sending incremental file list
  13. yarn-site.xml
  14. sent 1,034 bytes received 47 bytes 720.67 bytes/sec
  15. total size is 1,621 speedup is 1.50

在102上关闭历史服务器进程

  1. [yhd@hadoop102 hadoop-3.1.3]$ mapred --daemon stop historyserver
  2. [yhd@hadoop102 hadoop-3.1.3]$ jps
  3. 12433 DataNode
  4. 16617 Jps
  5. 12266 NameNode
  6. 12733 NodeManager

‘在103上关闭yarn进程

  1. [yhd@hadoop103 hadoop-3.1.3]$ jps
  2. 12531 Jps
  3. 9801 DataNode
  4. 9993 ResourceManager
  5. 10126 NodeManager
  6. [yhd@hadoop103 hadoop-3.1.3]$ sbin/stop-yarn.sh
  7. Stopping nodemanagers
  8. hadoop102: WARNING: nodemanager did not stop gracefully after 5 seconds: Trying to kill with kill -9
  9. hadoop104: WARNING: nodemanager did not stop gracefully after 5 seconds: Trying to kill with kill -9
  10. Stopping resourcemanager

在103上启动yarn

  1. [yhd@hadoop103 hadoop-3.1.3]$ sbin/start-yarn.sh
  2. Starting resourcemanager
  3. Starting nodemanagers
  4. [yhd@hadoop103 hadoop-3.1.3]$ jps
  5. 12913 ResourceManager
  6. 13046 NodeManager
  7. 9801 DataNode
  8. 13391 Jps

在102上启动历史服务器

  1. [yhd@hadoop102 hadoop-3.1.3]$ mapred --daemon start historyserver
  2. [yhd@hadoop102 hadoop-3.1.3]$ jps
  3. 12433 DataNode
  4. 17029 Jps
  5. 16969 JobHistoryServer
  6. 12266 NameNode
  7. 16797 NodeManager

再执行一个新任务查看验证如下:

  1. [yhd@hadoop102 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output2
  2. 2021-03-20 22:55:55,213 INFO client.RMProxy: Connecting to ResourceManager at hadoop103/192.168.10.103:8032
  3. 2021-03-20 22:55:55,683 INFO mapreduce.JobResourceUploader: Disabling Erasure Coding for path: /tmp/hadoop-yarn/staging/yhd/.staging/job_1616251848467_0001
  4. 2021-03-20 22:55:55,764 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false

首先看dnfs上是否成功

再看任务调度运行情况

点击logs进程查看

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/600632
推荐阅读
相关标签
  

闽ICP备14008679号