当前位置:   article > 正文

Hadoop常用命令_hadoop命令

hadoop命令

1.创建文件夹

hadoop dfs -mkdir /hadoop/path/

2.上传文件的两种方式

hdfs dfs -copyFromLocal /local/data/file.txt /hadoop/data :将本地文件上传到hdfs上(原路径只能是一个文件)
hadoop dfs -put /local/*.txt /hadoop/path/ :put和 copyFromLocal 区别是,put 原路径可以是文件夹等

hadoop dfs -put -f /local/*.txt /hadoop/path/ :-f 含义是表示强制覆益

3.上传文件夹

hdfs dfs -put /local/data/ /hadoop/data/

4.删除目录dir:

hadoop dfs -rm -r /hadoop/data
##删除目录不放回收站-skipTrash
hdfs dfs -rm-r -skipTrash /hadoop/data/two_lm_txt_all_gbk

5.查看目录 文件

hadoop dfs -ls /tmp/data :查看/tmp/data 目录

6.查看文件内容

hadoop fs -cat /tmp/a.txt :查看/tmp/a.txt文件内容

7.下载文件

hadoop fs -get /path/to/hadoop/file.txt /path/on/local/machine

8.查看文件夹下的文件数量

hdfs dfs -count /hadoop/data

9.Hadoop上移动文件

hdfs dfs -mv /hadoop/data/* /hadoop/data1/

10.查着文件夹占用内存

hdfs dfs -du -h -s /hadoop/data/

11.查看文件夹下数据占用内存

hdfs dfs -du -h /workdir/nlm
hadoop dfs -du -h /workdir/nlm

12.查着Hadoop任务进程id

yarn application list
yarn application -list

13.kill掉Hadoop任务进程id

yarn application -kill id

14.查看hadoop的md5

hadoop dfs -cat /hadoop/data.txt | md5sum

实操:对比本地文件md5,来判断上传文件是否一致

import subprocess
def command_shell(command):
    output=subprocess.check_output(command,shell=True)
    output_str=output.decode("utf-8")
    return output_str.split(" ")[0]
command1="md5sum /local/data.txt"
local_md5=command_shell(command1)
command2="hadoop dfs -cat /hadoop/data.txt | md5sum"
hdfs_md5=command_shell(command2)
if local_md5==hdfs_md5:
    print("md5相同,文件一致")
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

15.将目录下的所有内容merge成一个文件,下载到本地

hadoop dfs -getmerge /hadoop/

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/空白诗007/article/detail/765284
推荐阅读
相关标签
  

闽ICP备14008679号