当前位置:   article > 正文

Hadoop集群简介和搭建步骤_hadoop集群搭建的考点

hadoop集群搭建的考点

参考多篇博客后,成功搭建Hadoop和Spark集群,希望记录下安装步骤,目前只更新了Hadoop部分

Hadoop简介

在搭建Hadoop集群之前,先简单了解一下Hadoop集群

Hadoop是什么

  • Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群进行高度运算和存储。
  • 主要解决海量数据的存储和分析计算的问题
  • 广义上来说,Hadoop通常是指一个更广泛的概念-Hadoop生态圈,如下图
    在这里插入图片描述

Hadoop发展历史

  • Hadoop是原Yahoo的Doug Cutting根据Google发布的学术论文研究而来。Doug Cutting给这个Project起了个名字,就叫Hadoop,(Hadoop的图标是因为Doug Cutting根据他儿子的大象玩具设计的)。
  • Google在大数据方面的三篇论文
    -Google File System(大规模分散文件系统) — >HDFS
    MapReduce (大规模分散FrameWork)---- >MapeReduce
    BigTable(大规模分散数据库)----- > Hbase
  • 2005年Hadoop作为Lucene的子项目的Nutch一部分正式引入Apache基金会

    Hadoop三大发行版本

  • Apache 版本最原始(最基础)的版本,对入门学习比较好,对应的版本需要自己选择
  • Cloudera在大型互联网企业中用的较多,但是收费 称为CDH版,可以一系列安装对应的版本,封装的比较好,一键安装
  • Hortonworks文档较好

    Hadoop的优势

    • 高可靠性 Hadoop底层维护多个数据副本,至少三个,所以即时Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失
    • 高效性 在Map Reduce的思想下,Hadoop是并行工作的,以加快任务处理速度
    • 高扩展性 在集群间分配任务数据,可方便的扩展数以千计的节点,动态增加或删除节点
    • 高容错性 能够将失败的任务重新分配

    Hadoop1.X和Hadoop2.X的区别

    PS:据说是必须要知道的知识点
    在这里插入图片描述
    在Hadoop1.X中,Hadoop中的Map Reduce同时处理业务逻辑运算和资源的调度,耦合性较大,在Hadoop2.X中,增加了Yarn。Yarn只负责资源的调度,Map Reduce只负责运算。

Hadoo环境搭建

(终于开始搭建环境辣)
环境:使用虚拟机创建了三个ubuntu 16.04的linux系统,虚拟机版本是vmvare 12.5

安装虚拟机,安装linux系统(如果你有linux系统可以跳过这个步骤)

1)如果没有安装虚拟机,安装包(链接:https://pan.baidu.com/s/1tjgqHtJQBkcycXuTzVENyg 提取码:7z7o )
2)不会在虚拟机上安装操作系统 ,可以参考这里,有详细的安装步骤,只需要将文中的centos系统更换成你想安装的系统就可以了。
3)克隆两个linux环境
如下图,找到克隆,然后一直下一步就可以了。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/空白诗007/article/detail/854441
推荐阅读
相关标签
  

闽ICP备14008679号