当前位置:   article > 正文

四、Hadoop系统应用之HDFS相关操作(一)(超详细步骤指导操作,WIN10,VMware Workstation 15.5 PRO,CentOS-6.7)_hadoop中的hdfs的配置步骤

hadoop中的hdfs的配置步骤

Hadoop集群搭建前安装准备参考:
一、Hadoop系统应用之安装准备(一)(超详细步骤指导操作,WIN10,VMware Workstation 15.5 PRO,CentOS-6.7)
一、Hadoop系统应用之安装准备(二)(超详细步骤指导操作,WIN10,VMware Workstation 15.5 PRO,CentOS-6.7)
Hadoop集群搭建过程参考:
二、Hadoop系统应用之Hadoop集群搭建(超详细步骤指导操作,WIN10,VMware Workstation 15.5 PRO,CentOS-6.7)

HDFS简介

HDFS(Hadoop Distributed Filesystem)是一个易于扩展的分布式文件系统,运行在成百上千台低成本的机器上。它与现有的分布式文件系统有许多相似之处,都是用来存储数据的系统工具,而区别于HDFS具有高度容错能力,旨在部署在低成本机器上。HDFS主要用于对海量文件信息进行存储和管理,也就是解决大数据文件(如TB乃至PB级)的存储问题。

1、HDFS的Shell操作

文件系统(FS)Shell包含了各种的类Shell的命令,可以直接与Hadoop分布式文件系统以及其他文件系统进行交互。
在这里插入图片描述

2、Shell定时采集数据到HDFS

2.1 配置环境变量

在/export/data/目录下创建logs目录,指令如下:

cd /export/data/
mkdir logs
cd logs/
  • 1
  • 2
  • 3

2.2 创建编辑脚本文件

创建编辑脚本文件upload2HDFS.sh,然后对其进行编辑。指令如下:

vi upload2HDFS.sh
  • 1

在这里插入图片描述

依次在该文件中增加如下内容:

#!/bin/bash
#配置java环境变量
export JAVA_HOME=/export/servers/jdk
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
#配置Hadoop环境变量
export HADOOP_HOME=/export/servers/Hadoop-2.7.4
export PATH=${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:$PATH
#日志文件存放的目录
log_src_dir=/export/data/logs/log/
#待上传文件存放的目录
log_toupload_dir=/export/data/logs/toupload/
#设置日期
date1=`date -d last-day +%Y_%m_%d`
#日志上传到hdfs的根路径
hdfs_root_dir=/data/clickLog/$date1/
#打印环境变量信息
echo "envs: hadoop_home: $HADOOP_HOME"
#读取日志文件的目录,判断是否有需要上传的文件
echo "log_src_dir:"$log_src_dir
#实现文件上传
ls $log_src_dir | while read fileName
do
if [[ "$fileName" == access.log.* ]]; then
date=`date +%Y_%m_%d_%H_%M_%S`
#将文件移动到待上传目录并重命名
echo "moving $log_src_dir$fileName to $log_toupload_dir"xxxxx_click_log_$fileName"$date"
mv $log_src_dir$fileName $log_toupload_dir"xxxxx_click_log_$fileName"$date
#将待上传的文件path写入一个列表文件willDoing
echo $log_toupload_dir"xxxxx_click_log_$fileName"$date >>$log_toupload_dir"willDoing."$date
fi
done
#找到列表文件willDoing
ls $log_toupload_dir | grep will |grep -v "_COPY_" | grep -v "_DONE_" | while read line
do
    #打印信息
    echo "toupload is in file:"$line
    #将待上传文件列表willDoing改名为willDoing_COPY_
    mv $log_toupload_dir$line $log_toupload_dir$line"_COPY_"
    #读列表文件willDoing_COPY_的内容(一个一个的待上传文件名)
    #此处的line 就是列表中的一个待上传文件的path
    cat $log_toupload_dir$line"_COPY_" |while read line
    do
        #打印信息
        echo "puting...$line to hdfs path.....$hdfs_root_dir"
        hadoop fs -mkdir -p $hdfs_root_dir
        hadoop fs -put $line $hdfs_root_dir
    done
mv $log_toupload_dir$line"_COPY_"  $log_toupload_dir$line"_DONE_"
done
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51

2.3 创建存放与上传目录

创建日志文件存放的目录与待上传文件存放的目录,指令如下:

mkdir -p /export/data/logs/log/
mkdir -p /export/data/logs/toupload/
  • 1
  • 2

在这里插入图片描述

2.4 创建日志文件

手动创建日志文件,指令如下:

cd log/
vi access.log
  • 1
  • 2

在这里插入图片描述

添加内容:

hello world
hello hdfs
  • 1
  • 2

在这里插入图片描述

使用如下指令在当前路径修改日志格式,生成四个格式正确的日志:

cp access.log access.log.1
cp access.log access.log.2
cp access.log access.log.3
cp access.log access.log.4
  • 1
  • 2
  • 3
  • 4

2.5 脚本执行

回到upload2HDFS.sh脚本路径下,执行该脚本:(保证Hadoop集群中HDFS和YARN服务已开启)

cd ..
sh upload2HDFS.sh
  • 1
  • 2

在这里插入图片描述

2.7 获得结果如下:(在UI界面中查看HDFS集群状态)
在这里插入图片描述
在这里插入图片描述

参考文献:黑马程序员.Hadoop大数据技术原理与应用[M].北京:清华大学出版社,2019.

后续学习链接:
四、Hadoop系统应用之HDFS相关操作(二)(超详细步骤指导操作,WIN10,VMware Workstation 15.5 PRO,CentOS-6.7)

声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号