赞
踩
HDFS:Hadoop distribute File Sytem(hadoop文件分布式系统),它是一个文件系统用于通过统一的命名空间—目录树来定位文件
数据块副本折存放策略是什么?
1.副本放置策略
第一副本:放置在上传文件的DataNode上;如果是集群外提交,则随机挑选一台磁盘不太慢、CPU不太忙的节点上;
第二副本:放置在于第一个副本不同的机架的节点上;
第三副本:与第二个副本相同机架的不同节点上;
如果还有更多的副本:随机放在节点中;
简述HDFS的架构。
HDFS主要由四个部分组成,分别为Client,nameNode、DataNode、以及Secondary NameNode组成
4.简述核心组件NameNode和DataNode的作用。
NameNode的作用
1、 维护目录树,维护命名空间。
2、 负责确定指定的文件块到具体的Datanode结点的映射关系。(在客户端与Datanode之间共享数据)
3、管理Datanode结点的状态报告
DataNode的作用
1、 负责管理它所在结点上存储的数据的读写,及存储数据。
2、 向Namenode结点报告DataNode节点的状态。
3、 通过流水线复制实现三份数据副本。
常见的HDFS分布式文件系统的命令行行的命令有哪些?
hdfs dfs ls 路径 ls cat put mpa help cp safemode get/leave/enter hdfs dfs -moveFormLocal /root/Linux/a.txt /hdfs/a.txt (剪切) **常见的操作HDFS分布式文件系统的JavaAPI有哪些**? **FileSystem.get(url,configuration,user);//获取连接** **CopyFromLocalFile();//上传文件到hdfs** **CopyToLocal();//下载文件到本地** **rename(path1,path2)//重新命名文件** **delete(path1,true);//删除文件名** **fs.listStatus(new Path());//用来判断文件的种类 是目录不是文件夹** hdfs dfs -mkdir /wyh hdfs dfs -mkdir -p /wyh/dilireba/love (多级创建)
1. 什么是数据 的完整性?
数据完整性是指数据库中数据在逻辑上的一致性、正确性、有效性和相容性
2. 常见的数据压缩格式 有哪些?对文件的压缩有哪些好处?
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FFinMIFY-1618988592267)(C:\Users\CourageAndLove\AppData\Roaming\Typora\typora-user-images\image-20210416111204506.png)]
好处: 减少存储的磁盘空间,降低IO,加快数据在磁盘和网络中的传输速度
Hadoop的序列化框架中常见的数据类型有哪些?
java数据类 | Hadoop数据类型 |
---|---|
Boolean | BooleanWritable |
byte | ByteWritable |
int | IntWritable,VIntWritable |
float | FloatWritable |
long | LongWritable |
double | DoubleWritable |
String | Text |
map | MapWritable |
array | ArrayWritable |
null | NullWritable |
什么是MapReduce的编程模型?
Hadoop MapReduce是一个软件框架,基于该框架能够容易的编写应用程序,这些应用程序能够运行由上千商用的机器组成的集群上,并以一种可靠的,具有容错能力的方式并行地处理TB级别的海量数据集。
MapReduce的思想是“分而治之”。 Maper负责分,Reducer负责结果汇总
简述MapReduce中JobTracker和TaskTracker的功能。
Jobtracker是主线程,它负责接收客户作业提交,调度任务到工作结点运行,并提供诸监控工作节点状态,及任务进度管理功能,一个MapReduce集群有一个jobtracker,一般运行在可靠的硬件上。
taskTracker是通过周期性的心跳通知jobtracker其当前的健康状态,每一次心跳包含了可用的map和reduce任务数目,占用的数目以及运行中的任务详细信息。Jobtracker利用一个线程池来同时处理心跳和客户请求。
使用MapReduce编程模型实现单词的词频统计。
简述MapReduce编程模型的编程思路
用户编写的程序分成三个部分:Mapper,Reducer,Driver(提交运行mr程序的客户端)
Driver来进行提交,提交的是一个描述各种必要的信息的job对象。
简述MapReduce的应用 程序在集群上的运行过程。
执行的MapReduce的程序会被部署到集群中去,Master负责作业调度,worker负责执行执行Map和Reduce任务
选出执行Map任务的空闲机器,进行分片处理,然后进行map
得到输出数据<key,value>
得到的结果写入本地map机器的缓存,满了之后写入磁盘,并被划分为R个分区,Master会记录R个分区的位置,通知R个Reduce任务的Worker来领取属于自己处理的那部分分区
Reduce任务的Worker领取了属于自己处理的分区,而且是当领取所有属于自己的Map机器的分区数据之后,Reduce任务的Worker对所有键值对进
排序,将具有相同的Key值的聚在一起,然后开始执行Reduce任务
对每一个唯一的Key执行Reduce任务,结果输出到HDFS中
关于Hadoop的单机模型和伪分布式模式的说法正确的是:
后者比前者增加了HDFS输入输出以及检查内存的使用情况
Hdfs基于流数据模式访问和处理超大文件的需求而开发的,具有高容错,高可靠性、高扩展性,高吞吐率特征,适合的读写任务是:一次写入,多次读入
HBase 依靠HDFS 存储底层数据
Hbase依赖MapReduce提供强大的计算能力
下面和HDFS类似的框架是GFS
大数据的特点不包括价值密度高,拥有巨大的数据量、多结构化数据,增长速度快
Doug Cutting 所创立 的项目的名称都受到其家人的启发,以下项目不是由他创立的是 Solr
由他创立 的项目有Hadoop,Nutch,Lucene
出现在datanode的Version文件格式但不出现 在namenode的Version文件格式中的是 StorageID
Client在HDFS上进行文件写入,namenode根据文件大小和配置情况返回部分datanode信息,谁负责将文件划分为多个Block,根据DataNode的地址信息按顺序写入到时每一个datanode块 Client
关于HDFS的文件写入,正确的是:默认将文件复制三份存放。
Hadoop fs中的-get和-put命令操作对象 是 文件和目录。
NameNode在启动时自动进入 安全模式,在安全模式阶段,说法错误的是:文件系统允许有修改
MapReduce 框架提供了一种 序列化键/值对的方法,支持这种序列化的类能够在Map和Reduce过程 中充当键和值,
以下错误的是Hadoop的基本Text并不实现WritableComparable接口
下列哪个程序负责HDFS的数据存储DataNode
Client端上传文件的时候下列哪项正确 Client端将文件分为Block,依次上传
下面说法正确的是:D
A block Size是不可以修改的
B 如果 NameNode意外终止,SecondaryNameNode会接替它使集群继续工作
C Hadooop是java开发的,所以mapReduce只支持java
D ClouderaCDH是不需要付费使用的
下面说法正确的是:Hadoop默认调度策略为FIFO
Hadoop集群需要哪些守护进程: dataNode taskTracker namenode
hadoop主要组成部分包括:HDFS MapReduce yarn
有个exam任务,打算采用linux crontab,每20分钟运行一次,下面哪项正确?
A、
*/20 * * * * exam
下列哪种类型的文件不是HDFS的元数据的存储格式? blk_0000003425
HDFS无法高效的存储大量小文件,想证它能处理好小文件,比较可行的改进策略不包括:
查看当前模式是否是安全模式
hdfs dfsadmin -safemode get
HDFS组成架构 NameNode,DataNode,client,Secondary NameNode
MapReduce技术特征总结 自动并行化,自动可靠处理,灵活扩展,高性能
关于HDFS安全模式说法正确的是HBase依靠HDFS存储底层数据
请问以下哪个组成是错误 的sbin/hdfs dfsadmin -report
下面哪个选项中的Daemon总是运行在同一台主机上?
DataNOde &Task Tracker
不Hadoop MapReduce框架 中,任何类型 需要实现Writable接口
Hadoop配置文件中,hadoop-site.xml显示覆盖hadoop-default.xml里的内容。在版本0.20中,hadoop-site.xml被分离成三个XML文件,不包括 conf-site.xml
HDFS集群中nameNode的职责不包括: 负责保存客户端上传的数据。
包括:1. 维护HDFS集群的目录树结构 2、响应所有的客户端的所有的读写数据请求
维护HDFS集群的所有数据块分布、副本数和负载均衡
HDFS集群中的DataNode的描述不正确的是? C
A DataNode之间都是独立的,相互之间会有通信
B, 响应客户端的所有读写数据请求,为客户端的存储和读取数据提供支撑
C 一个DataNode上存储的数据可以有相同的
D 存储客户端上传的数据的数据块
执行一个job(工作),如果这个job的输出路径已经存在,那么程序会?D
A、
覆盖这个输出路径
B、
创建一个新的输出路径
C、
抛出警告,但是能够继续执行
D、
抛出一个异常,然后退出
Hadoop中默认的心跳间隔是多少级?C
A. 1S
B 2S
C 3S
D 4S
储的数据可以有相同的
D 存储客户端上传的数据的数据块
执行一个job(工作),如果这个job的输出路径已经存在,那么程序会?D
A、
覆盖这个输出路径
B、
创建一个新的输出路径
C、
抛出警告,但是能够继续执行
D、
抛出一个异常,然后退出
Hadoop中默认的心跳间隔是多少级?C
A. 1S
B 2S
C 3S
D 4S
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。