四、Hadoop系统应用之HDFS相关操作（一）（超详细步骤指导操作，WIN10，VMware Workstation 15.5 PRO，CentOS-6.7）_hadoop中的hdfs的配置步骤

作者：小丑西瓜9 | 2024-06-18 07:15:07

踩

hadoop中的hdfs的配置步骤

Hadoop集群搭建前安装准备参考：
一、Hadoop系统应用之安装准备（一）（超详细步骤指导操作，WIN10，VMware Workstation 15.5 PRO，CentOS-6.7）
一、Hadoop系统应用之安装准备（二）（超详细步骤指导操作，WIN10，VMware Workstation 15.5 PRO，CentOS-6.7）
Hadoop集群搭建过程参考：
二、Hadoop系统应用之Hadoop集群搭建（超详细步骤指导操作，WIN10，VMware Workstation 15.5 PRO，CentOS-6.7）

HDFS简介

HDFS（Hadoop Distributed Filesystem）是一个易于扩展的分布式文件系统，运行在成百上千台低成本的机器上。它与现有的分布式文件系统有许多相似之处，都是用来存储数据的系统工具，而区别于HDFS具有高度容错能力，旨在部署在低成本机器上。HDFS主要用于对海量文件信息进行存储和管理，也就是解决大数据文件（如TB乃至PB级）的存储问题。

1、HDFS的Shell操作

文件系统（FS）Shell包含了各种的类Shell的命令，可以直接与Hadoop分布式文件系统以及其他文件系统进行交互。
在这里插入图片描述

2、Shell定时采集数据到HDFS

2.1 配置环境变量

在/export/data/目录下创建logs目录，指令如下：

cd /export/data/
mkdir logs
cd logs/
1
2
3

2.2 创建编辑脚本文件

创建编辑脚本文件upload2HDFS.sh，然后对其进行编辑。指令如下：

vi upload2HDFS.sh
1

在这里插入图片描述

依次在该文件中增加如下内容：

#!/bin/bash
#配置java环境变量
export JAVA_HOME=/export/servers/jdk
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
#配置Hadoop环境变量
export HADOOP_HOME=/export/servers/Hadoop-2.7.4
export PATH=${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:$PATH
#日志文件存放的目录
log_src_dir=/export/data/logs/log/
#待上传文件存放的目录
log_toupload_dir=/export/data/logs/toupload/
#设置日期
date1=`date -d last-day +%Y_%m_%d`
#日志上传到hdfs的根路径
hdfs_root_dir=/data/clickLog/$date1/
#打印环境变量信息
echo "envs: hadoop_home: $HADOOP_HOME"
#读取日志文件的目录，判断是否有需要上传的文件
echo "log_src_dir:"$log_src_dir
#实现文件上传
ls $log_src_dir | while read fileName
do
if [[ "$fileName" == access.log.* ]]; then
date=`date +%Y_%m_%d_%H_%M_%S`
#将文件移动到待上传目录并重命名
echo "moving $log_src_dir$fileName to $log_toupload_dir"xxxxx_click_log_$fileName"$date"
mv $log_src_dir$fileName $log_toupload_dir"xxxxx_click_log_$fileName"$date
#将待上传的文件path写入一个列表文件willDoing
echo $log_toupload_dir"xxxxx_click_log_$fileName"$date >>$log_toupload_dir"willDoing."$date
fi
done
#找到列表文件willDoing
ls $log_toupload_dir | grep will |grep -v "_COPY_" | grep -v "_DONE_" | while read line
do
    #打印信息
    echo "toupload is in file:"$line
    #将待上传文件列表willDoing改名为willDoing_COPY_
    mv $log_toupload_dir$line $log_toupload_dir$line"_COPY_"
    #读列表文件willDoing_COPY_的内容（一个一个的待上传文件名）
    #此处的line 就是列表中的一个待上传文件的path
    cat $log_toupload_dir$line"_COPY_" |while read line
    do
        #打印信息
        echo "puting...$line to hdfs path.....$hdfs_root_dir"
        hadoop fs -mkdir -p $hdfs_root_dir
        hadoop fs -put $line $hdfs_root_dir
    done
mv $log_toupload_dir$line"_COPY_"  $log_toupload_dir$line"_DONE_"
done
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51

2.3 创建存放与上传目录

创建日志文件存放的目录与待上传文件存放的目录，指令如下：

mkdir -p /export/data/logs/log/
mkdir -p /export/data/logs/toupload/
1
2

在这里插入图片描述

2.4 创建日志文件

手动创建日志文件，指令如下：

cd log/
vi access.log
1
2

在这里插入图片描述

添加内容：

hello world
hello hdfs
1
2

在这里插入图片描述

使用如下指令在当前路径修改日志格式，生成四个格式正确的日志：

cp access.log access.log.1
cp access.log access.log.2
cp access.log access.log.3
cp access.log access.log.4
1
2
3
4

2.5 脚本执行

回到upload2HDFS.sh脚本路径下，执行该脚本：（保证Hadoop集群中HDFS和YARN服务已开启）

cd ..
sh upload2HDFS.sh
1
2

在这里插入图片描述

2.7 获得结果如下：（在UI界面中查看HDFS集群状态）
在这里插入图片描述

参考文献：黑马程序员.Hadoop大数据技术原理与应用[M].北京：清华大学出版社,2019.

后续学习链接：
四、Hadoop系统应用之HDFS相关操作（二）（超详细步骤指导操作，WIN10，VMware Workstation 15.5 PRO，CentOS-6.7）

声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：【wpsshop博客】