当前位置:   article > 正文

hadoop单机版安装_hadoop单机配置

hadoop单机配置

说明

单机版是hadoop的基础安装方式,在三种安装方式:单机、伪分布式、集群中,常作为MapReduce功能的测试环境,没必要开启hdfs和yarn。
本文介绍hadoop单机版MapReduce测试环境安装方式。

分享

环境

  • 系统 centos 7.9 2009
  • hadoop 3.3.4 下载地址
    • 需要软件ssh和pdsh,ssh系统自带,pdsh未用过。
  • jdk java 8.201

步骤

  • 安装目录:/opt/module,操作用户可以是root或其他。

安装jdk

  • 解压jdk:tar -zxvf jdk-8u201-linux-x64.tar.gz -C /opt/module/
  • centos7 配置环境变量,创建自己环境变量文件:vi /etc/profile.d/my_env.sh
#JAVA_HOME export是全局变量
export JAVA_HOME=/opt/module/jdk1.8.0_201
export PATH=$PATH:$JAVA_HOME/bin
  • 1
  • 2
  • 3
  • 如果为centos6 编辑文件:vi /etc/profile,内容如上,需重新加载环境文件:source /etc/profile

  • 验证jdk,查看版本:java -version
    在这里插入图片描述

安装hadoop

  • 官网下载hadoop 地址
    • wget下载:wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
    • curl下载:curl https://dlcdn.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz -o hadoop-3.3.4.tar.gz
  • 解压到指定目录:tar -zxvf hadoop-3.3.4.tar.gz -C /opt/module/,单机版安装就添加到系统环境变量。
    在这里插入图片描述

目录说明

  • hadoop各目录说明
目录名说明
bin存放hadoop相关服务(hdfs、yarn、mapred)进行操作脚本
etc存放hadoop配置文件
lib存放hadoop本地库
sbin启动或停止hadoop各服务脚本
share存放hadoop依赖jar、文档、官方实例。

MapReduce测试

数据准备

  • 创建数据目录:mkdir /opt/data /opt/data/input
  • 创建数据文件:vi /opt/data/input/data.txt,内容如下:
hello world
hello year
work and happy
  • 1
  • 2
  • 3

执行MapReduce

  • 执行MapReduce任务进行文本单词统计:/opt/module/hadoop-3.3.4/bin/hadoop jar /opt/module/hadoop-3.3.4/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar wordcount /opt/data/input/ /opt/data/output,为方便理解此处使用物理路径。

    • 参数说明:
      • jar:标识执行jar,后面跟jar包路径
      • wordcount:为参数,表示执行单词统计
      • /opt/data/input:为数据源目录
      • /opt/data/output:结果输出目录,不要创建,输出目录必须不存在,否则会报错。
        在这里插入图片描述
  • 出现如图 success 表示执行成功:
    在这里插入图片描述

结果验证

  • 程序自动创建输出目录:/opt/data/output,查看结果目录:ll /opt/data/output/,查看文件内容:cat /opt/data/output/part-r-00000
    在这里插入图片描述

hdfs服务

添加hadoop环境变量

  • 修改环境变量,添加hadoop环境变量,编辑文件:vi /etc/profile.d/my_env.sh ,增加如下内容:
#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.3.4

export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
  • 1
  • 2
  • 3
  • 4
  • 5
  • 查看hadoop版本,控制台执行刷新配置打印hadoop版本:source /etc/profile && hadoop version

创建数据目录

  • 控制台执行命令创建目录:mkdir -p /opt/data/hadoop/name /opt/data/hadoop/data

修改hadoop配置文件

  • 修改文件:vi /opt/module/hadoop-3.3.4/etc/hadoop/core-site.xml,修改为如下内容
<configuration>
        <!-- NameNode 地址设置-->
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://localhost:9000</value>
        </property>
        <!-- 数据存储目录 -->
        <property>
                <name>hadoop.tmp.dir</name>
                <value>file:/opt/module/hadoop-3.3.4/data</value>
                <description>Abasefor other temporary directories.</description>
        </property>
          <!-- HDFS网页登录静态用户-->
        <property>
          <name>hadoop.http.staticuser.user</name>
          <value>root</value>
        </property>
</configuration>
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 修改文件:vi /opt/module/hadoop-3.3.4/etc/hadoop/hdfs-site.xml,修改为如下内容
<configuration>
        <!--NameNode web访问地址 -->
        <property>
          <name>dfs.namenode.http-address</name>
          <value>localhost:9870</value>
        </property>
        <!-- NameNode数据目录 -->
        <property>
                <name>dfs.namenode.name.dir</name>
                <value>file:/opt/data/hadoop/name</value>
        </property>
        <!-- DataNode数据目录 -->
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>file:/opt/data/hadoop/data</value>
        </property>
        <!-- 数据副本数量 -->
        <property>
                <name>dfs.replication</name>
                <value>1</value>
        </property>
</configuration>
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 编辑文件:vi /opt/module/hadoop-3.3.4/sbin/start-dfs.sh vi /opt/module/hadoop-3.3.4/sbin/stop-dfs.sh ,增加如下内容配置用户启动信息
HDFS_DATANODE_USER=root
HADOOP_SECURE_DN_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root
  • 1
  • 2
  • 3
  • 4

启动hdfs并验证

  • 首次 格式化hdfs:hdfs namenode -format

  • 启动hdfs:start-dfs.sh

  • 查看服务进程:jps

  • 访问web页面:http://ip:9870/

  • 上传文件:hadoop fs -put 本地文件 /

  • 查看文件:hadoop fs -ls /

总结

  • 单机版只能辅助理解hadoop,正式上线小集群使用伪分布式,正常集群使用集群安装,绝大多数大数据公司,使用第三方集群安装管理工具CDH或HDP(现停止更新,合并为一家公司CDP,开始收费),个别公司自己开发hadoop安装工具,正式平台组件很多如hbase、hive、kafka、spark、flink等,根据业务需要组装,将会非常复杂,这里不做说明。
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/775171
推荐阅读
相关标签
  

闽ICP备14008679号