干货 | 98道常见Hadoop面试题及答案解析（一）

作者：从前慢现在也慢 | 2024-06-05 12:33:04

踩

这是一篇hadoop的测试题及答案解析，题目种类挺多，一共有98道题，题目难度不大，对于高手来说，90分以上才是你的追求。

单选题

1.1 下面哪个程序负责 HDFS 数据存储。

a)NameNode
b)Jobtracker
c)Datanode
d)secondaryNameNode
e)tasktracker

答案 C datanode

1.2 HDfS 中的 block 默认保存几份？

a)3 份
b)2 份
c)1 份
d)不确定

答案 A 默认 3份

1.3 下列哪个程序通常与 NameNode 在一个节点启动？

a)SecondaryNameNode
b)DataNode
c)TaskTracker
d)Jobtracker

答案 D

此题分析：

hadoop 的集群是基于 master/slave 模式，namenode 和 jobtracker 属于 master，datanode 和 tasktracker 属于 slave ， master 只有一个，而 slave 有多个SecondaryNameNode 内存需求和 NameNode 在一个数量级上，所以通常 secondary ，NameNode（运行在单独的物理机器上）和 NameNode 运行在不同的机器上。

JobTracker 和 TaskTracker，JobTracker 对应于 NameNode，TaskTracker 对应于 DataNode，DataNode 和 NameNode 是针对数据存放来而言的，JobTracker 和 TaskTracker 是对于 MapReduce 执行而言的，mapreduce 中几个主要概念，mapreduce 整体上可以分为这么几条执行线索：obclient，JobTracker 与 TaskTracker。

JobClient会在用户端通过JobClient类将应用已经配置参数打包成jar文件存储到hdfs，并把路径提交到 Jobtracker,然后由 JobTracker 创建每一个 Task（即 MapTask 和ReduceTask）并将它们分发到各个 TaskTracker 服务中去执行。

JobTracker 是一个 master 服务，软件启动之后 JobTracker 接收 Job，负责调度 Job的每一个子任务 task 运行于 TaskTracker 上，并监控它们，如果发现有失败的 task 就重新运行它。一般情况应该把 JobTracker 部署在单独的机器上。

TaskTracker 是运行在多个节点上的 slaver 服务。TaskTracker 主动与 JobTracker 通信，接收作业，并负责直接执行每一个任务。TaskTracker 都需要运行在 HDFS 的 DataNode上。

1.4 Hadoop 作者

a)Martin Fowler
b)Kent Beck
c)Doug cutting

答案 C Doug cutting

1.5 HDFS 默认 Block Size

a)32MB
b)64MB
c)128MB

答案：B

1.6 下列哪项通常是集群的最主要瓶颈：

a)CPU
b)网络
c)磁盘 IO
d)内存

答案：C 磁盘

该题解析：

首先集群的目的是为了节省成本，用廉价的 pc 机，取代小型机及大型机。小型机和大型机有什么特点？

1.cpu 处理能力强

2.内存够大。所以集群的瓶颈不可能是 a 和 d

3.网络是一种稀缺资源，但是并不是瓶颈。

4.由于大数据面临海量数据，读写数据都需要 io，然后还要冗余数据，hadoop 一般备 3份数据，所以 IO 就会打折扣。

1.7 关于 SecondaryNameNode 哪项是正确的？

a)它是 NameNode 的热备
b)它对内存没有要求
c)它的目的是帮助 NameNode 合并编辑日志，减少 NameNode 启动时间
d)SecondaryNameNode 应与 NameNode 部署到一个节点。

答案 C

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/676528