Hadoop在linux下的安装。以及HDFS相关的概念_linux中已经安装hadoop了还需要安装hdfs吗

作者：喵喵爱编程 | 2024-08-19 13:45:06

踩

linux中已经安装hadoop了还需要安装hdfs吗

Zebra项目中存在的问题（引出hadoop）

没有考虑到海量数据的存储和管理问题

没有考虑到节点的故障问题，比如通过心跳机制确保集群的高可用

只有一个合并节点（engine2），如果合并的任务量非常大，则会造成单点工作负荷大。

在zebra项目中，有很多业务的处理思想可以提炼出来，提炼出计算框架。（如逻辑切块,位置追溯，key值的合并）。即没有用计算框架来处理业务，导致以后有新任务还会做重复繁琐的工作。

任务资源管理和调度。比如对每一个job任务进行cpu和内存的合理分配。比如yarn和mesos。

Hadoop的作者doug cutting以及hadoop的起源

Doug Cutting 是Lucence Nutch 和hadoop的创始人。

Nutch是搜索引擎，是基于Lucence实现的。Nutch相当于lucence的web应用，可以抓取网页，爬取数据。

2004年，cutting研发出来nutch,nuctch负责抓取数据，数据是非结构化的数据，而且是海量数据。数据存储的数据是利用二维表来存储的，即行和列。此时，nutch面临的问题就是海量数据的存储和管理问题。如果这个问题解决不了，就谈不上后续的利用算法做网页排名以及优化检索速度，提高用户的搜索体验。

正好此时Google发表了两篇论文《Google FileSystem》《Google Mapreduce》

《Google FileSystem》GFS是Google公司分布式文件系统，用于解决海量数据的存储问题。

《Google Mapreduce》MapReduce是Google运行在GFS上的计算框架。这个计算框架的目的是便于不懂分布式编程的人员也可以将任务运行在分布式环境下。

Cutting根据《GFS》设计了HDFS，hadoop distributed filesystem 。Hadoop诞生的目的，最开始为了解决nutch抓取海量数据的存储问题。在nutch0.8版本以前，hadoop是 nutch的子项目。在0.8版本，独立出来，单独称为一个项目。后来，Cutting 根据《Google Mapreduce》设计了基于HDFS的MapReduce计算框架。

2006年，cutting带着这Hadoop来到Yahoo,后来Yahoo把Hadoop贡献给Apache。现在是Apache的顶级项目。

Hadoop 版本

Hadoop 1.0 HDFS +MapReduce

Hadoop 2.0 HDFS+ MapReduce +yarn（资源调度框架）。引入框架之后，不仅可以运行mapreduce一种框架，还可以运行其他流式框架Strom等。

Hadoop3.0在2016年9月12日发布据说比当前spark快很多

资源调度框架

Yarn mesos都是apache的产品

Hadoop单机的安装

待完善

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/喵喵爱编程/article/detail/1002522