赞
踩
最近项目中一部分大文件需要存储到hadoop的hdfs组件中,自己本地用3台centos7虚拟机搭建了一套集群。本地写点java代码测试一下。
代码部分改编自网络。
hadoop-master
hadoop-slave01
hadoop-slave02
192.168.5.128 hadoop-master
192.168.5.129 hadoop-slave01
192.168.5.130 hadoop-slave02
<dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.7.6</version> </dependency> <!--lombok用来简化实体类:需要安装lombok插件--> <dependency> <groupId>org.projectlombok</groupId> <artifactId>lombok</artifactId> <version>1.18.2</version> <scope>provided</scope> </dependency> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.12</version> </dependency> </dependencies>
/** * @Description: hdfs api操作 * @Author laoxu * @Date 2020/4/9 21:33 **/ @Slf4j public class HDFSClient { FileSystem fs = null; @Before public void init() throws Exception { // 构造一个配置参数对象,设置一个参数:我们要访问的hdfs的URI // 从而FileSystem.get()方法就知道应该是去构造一个访问hdfs文件系统的客户端,以及hdfs的访问地址 // new Configuration();的时候,它就会去加载jar包中的hdfs-default.xml // 然后再加载classpath下的hdfs-site.xml Configuration conf = new Configuration(); // conf.set("fs.defaultFS", "hdfs://hdp-node01:9000"); /** * 参数优先级: 1、客户端代码中设置的值 2、classpath下的用户自定义配置文件 3、然后是服务器的默认配置 */ // conf.set("dfs.replication", "3"); // 获取一个hdfs的访问客户端,根据参数,这个实例应该是DistributedFileSystem的实例 // fs = FileSystem.get(conf); // 如果这样去获取,那conf里面就可以不要配"fs.defaultFS"参数,而且,这个客户端的身份标识已经是hadoop用户 fs = FileSystem.get(new URI(conf.get("fs.defaultFS")), conf, "root"); } /** * 往hdfs上传文件 * * @throws Exception */ @Test public void testAddFileToHdfs() throws Exception { // 要上传的文件所在的本地路径 // Path src = new Path("d:/upload/test.png"); Path src = new Path("d:/software/jdk-8u171-windows-x64.exe"); // 要上传到hdfs的目标路径 Path dst = new Path("/hdfs/2020"); fs.copyFromLocalFile(src, dst); fs.close(); } /** * 从hdfs中复制文件到本地文件系统 * * @throws IOException * @throws IllegalArgumentException */ @Test public void testDownloadFileToLocal() throws IllegalArgumentException, IOException { // 不删除原文件,同时采用本地文件系统 fs.copyToLocalFile(false, new Path("/hdfs/2020/test.txt"), new Path("d:/download"), true); fs.close(); } @Test public void testMkdirAndDeleteAndRename() throws IllegalArgumentException, IOException { // 创建目录 fs.mkdirs(new Path("/order1/2020")); // 重命名文件或文件夹 fs.rename(new Path("/order1"), new Path("/order")); // 删除文件夹 ,如果是非空文件夹,参数2必须给值true // fs.delete(new Path("/order"), true); fs.close(); } /** * 查看目录信息,只显示文件 * * @throws IOException * @throws IllegalArgumentException * @throws FileNotFoundException */ @Test public void testListFiles() throws FileNotFoundException, IllegalArgumentException, IOException { // 思考:为什么返回迭代器,而不是List之类的容器 RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(new Path("/"), true); while (listFiles.hasNext()) { LocatedFileStatus fileStatus = listFiles.next(); System.out.println(fileStatus.getPath().getName()); System.out.println(fileStatus.getBlockSize()); System.out.println(fileStatus.getPermission()); System.out.println(fileStatus.getLen()); BlockLocation[] blockLocations = fileStatus.getBlockLocations(); for (BlockLocation bl : blockLocations) { System.out.println("block-length:" + bl.getLength() + "--" + "block-offset:" + bl.getOffset()); String[] hosts = bl.getHosts(); for (String host : hosts) { System.out.println(host); } } System.out.println("--------------为angelababy打印的分割线--------------"); } } /** * 查看文件及文件夹信息 * * @throws IOException * @throws IllegalArgumentException * @throws FileNotFoundException */ @Test public void testListAll() throws FileNotFoundException, IllegalArgumentException, IOException { FileStatus[] listStatus = fs.listStatus(new Path("/hdfs/2020")); System.out.println(listStatus.length); String flag = "文件夹: "; for (FileStatus fstatus : listStatus) { if (fstatus.isFile()) flag = "文件: "; System.out.println(flag + fstatus.getPath().getName()); } fs.close(); } }
看我后续文章。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。