赞
踩
今天来聊下Hadoop和HDFS。
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决海量数据的存储和海量数据的分析计算问题。
Hadoop的雏形是由Doug Cutting等人借鉴Google在大数据方面的三篇论文后(GFS->HDFS,MapReduce->MR,BigTable->HBase),用了2年业余时间实现的,后来被引入Apache基金会立项,2006年3月Hadoop正式诞生,标志着大数据时代来临。名字来源于Doug Cutting儿子的玩具大象。
Apache版本是最原始最基础的版本,开源免费。
Cloudera内部集成了很多大数据框架,对应产品CDH,收费,每年每个节点10000美元。
Hortonworks文档较好,对应产品HDP,目前已被Cloudera公司收购。
Hadoop2.x和3.x都由HDFS、MapReduce和Yarn组成。HDFS负责数据存储,MapReduce负责计算,Yarn负责资源调度。
在Hadoop1.x时代,Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度,耦合性较大,在Hadoop2.x时代增加了Yarn,Yarn只负责资源的调度,MapReduce只负责运算。
Hadoop各组成介绍:
随着数据量越来越大,需要一种系统来管理多台机器上的文件,就是分布式文件管理系统,其中HDFS只是分布式文件管理系统的一种。
HDFS全称是Hadoop Distributed File System,它是一个文件系统,用来存储文件,通过目录树来定位文件,其次它是分布式的,由很多服务器联合起来实现功能。
由于HDFS是分布式的,不难想到它的使用场景,适合一次写入,多次读出的场景,且不支持文件的修改。
HDFS优点:高容错性、适合处理大数据、可构建在廉价机器上。
HDFS缺点:不适合低延时数据访问(比如毫秒级存储数据做不到)、无法高效的对大量小文件进行存储、不支持并发写入和文件随机修改(仅支持数据追加)。
HDFS组织架构如下:
NameNode–就是Master,管理者,下达命令
HDFS中的文件在物理上是分块存储的,块的大小可以通过配置参数(dfs.blocksize)来规定,默认大小在Hadoop2.x版本中是128M,旧版本中是64M。
根据经验公式当寻址时间为传输时间的1%时为最佳状态,那么寻址时间是10ms时传输时间就是1s,而目前磁盘的传输速率普遍为100MB/s,得到block大小为100MB,取整数就是128M(对于计算机而言的整数)。
块太小会增加寻址时间。块太大则从磁盘传输数据的时间会明显大于定位块开始位置的时间,导致处理块数据速度变慢。
HDFS块的大小设置主要取决于磁盘传输速度。
bin/hadoop fs 具体命令
bin/hdfs dfs 具体命令
有环境变量可不用加路径bin/
。
hadoop fs -help rm # 输出这个命令参数
上传:
hadoop fs -moveFromLocal ./test01.txt /files # 从本地剪切粘贴到HDFS
hadoop fs -copyFromLocal ./test02.txt /files # 从本地拷贝到HDFS
hadoop fs -appendToFile ./test03.txt /files/test02.txt # 追加一个文件到已经存在的文件末尾
hadoop fs -put ./test04.txt /files # 等同于copyFromLocal
下载:
hadoop fs -copyToLocal /files/test01.txt ./ # 从HDFS拷贝到本地
hadoop fs -get /files/test02.txt ./ # 等同于copyToLocal
hadoop fs -getmerge /files/* ./merge.txt # 合并下载多个文件
HDFS直接操作:
hadoop fs -ls / # 显示目录树
hadoop fs -mkdir -p /files/create/ # 在HDFS上创建目录
hadoop fs -cat /files/test01.txt # 显示文件内容
hadoop fs -chmod 777 /files/test02.txt # 修改文件所属权限
hadoop fs -chown dgf:dgf /files/test03.txt # 修改文件拥有者
hadoop fs -cp /files/test04.txt /files/create/ # 从HDFS一个路径拷贝到另一个路径
hadoop fs -mv /files/test05.txt /files/create/ # 在HDFS目录中移动文件
hadoop fs -tail /files/test06.txt # 显示一个文件的末尾
hadoop fs -rm /files/test07.txt # 删除文件或文件夹
hadoop fs -rmdir /test # 删除空目录
hadoop fs -du -s -h /files/create # 只统计文件夹的大小信息
hadoop fs -du -h /files/create # 统计文件夹下各文件的大小信息
hadoop fs -setrep 6 /files/test08.txt # 设置HDFS中文件的副本数量
# 这里设置的副本数只是记录在NameNode的元数据中,是否真有这么多副本还得看DataNode的数量
将windows依赖拷贝到系统,然后配置环境变量,最后重启下电脑。
创建Maven工程并添加依赖:
<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.12</version> </dependency> <dependency> <groupId>org.apache.logging.log4j</groupId> <artifactId>log4j-slf4j-impl</artifactId> <version>2.16.0</version> </dependency> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>3.1.3</version> </dependency> </dependencies>
创建HdfsClient类:
public class HdfsClient{
@Test
public void testMkdirs() throws IOException, InterruptedException, URISyntaxException{
//1.获取文件系统
Configuration configuration = new Configuration();
//配置在集群上运行
//configuration.set("fs.defaultFS", "hdfs://hadoop1:9820");
//FileSystem fs = FileSystem.get(configuration);
FileSystem fs = FileSystem.get(new URI("hdfs://hadoop1:9820"), configuration, "dgf");
//2.创建目录
fs.mkdirs(new Path("/files/create/files"));
//3.关闭资源
fs.close();
}
}
配置用户名称并执行程序:
客户端操作HDFS时,是有一个用户身份的,默认情况下,HDFS客户端API会从JVM中获取一个参数作为自己的用户身份:-DHADOOP_USER_NAME=dgf,dgf为用户名称。
HDFS文件上传:
@Test
public void testCopyFromLocalFile() throws IOException, InterruptedException, URISyntaxException {
//1.获取文件系统
Configuration configuration = new Configuration();
configuration.set("dfs.replication", "2");
FileSystem fs = FileSystem.get(new URI("hdfs://hadoop1:9820"), configuration, "dgf");
//2.上传文件
fs.copyFromLocalFile(new Path("e:/test.txt"), new Path("/test.txt"));
//3.关闭资源
fs.close();
System.out.println("over");
}
参数优先级:客户端代码>工程配置文件>服务器默认配置。
HDFS文件下载:
@Test
public void testCopyToLocalFile() throws IOException, InterruptedException, URISyntaxException{
//1.获取文件系统
Configuration configuration = new Configuration();
FileSystem fs = FileSystem.get(new URI("hdfs://hadoop1:9820"), configuration, "dgf");
//2.执行下载操作
//boolean delSrc 指是否将原文件删除
//Path src 指要下载的文件路径
//Path dst 指将文件下载到的路径
//boolean useRawLocalFileSystem 是否开启文件校验
fs.copyToLocalFile(false, new Path("/test.txt"), new Path("e:/test.txt"), true);
//3.关闭资源
fs.close();
}
通过流向HDFS上传和下载文件:
//上传 @Test public void test01() throws Exception { //创建输入流读取本地文件的内容 FileInputStream fis = new FileInputStream(new Path("E:\\test.txt")); //创建输出流将文件写到HDFS上 FSDataOutputStream fos = fs.create(new Path("/test.txt")); //文件对拷 IOUtils.copyBytes(fis,fos,2000); //关闭流 IOUtils.closeStream(fis); IOUtils.closeStream(fos); } //下载 @Test public void test02() throws Exception { FSDataInputStream fis = fs.open(new Path("/test.txt")); FileOutputStream fos = new FileOutputStream(new Path("E://test.txt")); //最后一个参数 :true就会关流 false不会关流 IOUtils.copyBytes(fis,fos,2000,true); }
在HDFS写数据的过程中,NameNode会选择距离待上传数据最近距离的DataNode接受数据。下面介绍下节点距离的计算。
节点距离:两个节点到达最近的共同祖先的距离总和。
副本节点的选择:
以上介绍了HDFS的读写流程和实际操作命令,关于HDFS的组成这里先不做介绍。
今天的内容就到这里,下篇见。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。