当前位置:   article > 正文

大数据面试系列之——Hadoop_搞定hadoop面试

搞定hadoop面试

Hadoop的三个核心:
HDFS(分布式存储系统)
MapReduce(分布式计算系统)
YARN (分布式资源调度)

1.Hadoop集群的几种搭建模式

  • 1.单机模式:直接解压安装,不存在分布式存储系统
  • 2.伪分布式:NameNode和DataNode安装于同一个节点,无法体现分布式处理的优势。
  • 3.完全分布式:一个主节点,多个从节点,存在如果主节点宕机,集群就无法使用的缺点。
  • 4.高可用模式:多个主节点,多个从节点,同一时间只有一个主节点对外服务,当提供服务的主节点出现故障时,其他任意一个主节点可以代替它,必须保持所有主节点实时数据一致,缺点主节点压力大容易出现宕机。
  • 5.联邦模式:多个主节点,多个从节点,同一时间多个主节点分别负责部分从节点对外提供服务。
    实际生产中超大集群一般采用高可用和联邦模式结合的方式部署。

2.HDFS的心跳机制
当NameNode和DataNode启动后,他们会保持通讯,DataNode会定时发送心跳报告到NameNode(默认时间间隔是3秒),以便让NameNode随时了解DataNode 的健康状态,当NameNode连续10次(默认值)未收到某一个DataNode的心跳报告时,NameNode会主动向DataNode发送检查,容许发送2次检查,每次检查默认时间是300秒,当2次检查都没有结果时断定这个DataNode节点宕机。
默认断定一个DataNode节点宕机的时间为103s+25min=630s

3.HDFS的机架感知策略
默认副本为3个,第一个副本放在本地节点存储,第二个副本放在和第一个副本不同机架任意节点,第三个副本放在和第二同机架的其他任意节点,这样既可以保证本地访问数据的速率,还可以尽可能保证数据的副本的安全。

4.HDFS的上传(写)下载(读)机制
上传机制

  • 1.客户端(client)向NameNode发送文件上传请求;
  • 2.NameNode会进行一系列检查,如用户权限、父目录是否存在、文件是否重名,成功则会为文件创建一个记录,否则向客户端抛出异常
  • 3.NameNode检查通过
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/545814
推荐阅读
相关标签
  

闽ICP备14008679号