Hadoop | 初学基础原理_hadoop 初始原理

作者：笔触狂放9 | 2024-07-24 16:29:30

踩

hadoop 初始原理

1、Hadoop运行原理

Hadoop是一个开源的可运行于大规模集群上的分布式并行编程框架，其最核心的设计包括：MapReduce和HDFS。基于Hadoop,你可以轻松地编写可处理海量数据的分布式并行程序，并将其运行于由成百上千个结点组成的大规模计算机集群上。

基于MapReduce计算模型编写分布式并行程序相对简单，程序员的主要工作就是设计实现Map和Reduce类，其它的并行编程中的种种复杂问题，如分布式存储，工作调度，负载平衡，容错处理，网络通信等，均由MapReduce框架和HDFS文件系统负责处理，程序员完全不用操心。换句话说程序员只需要关心自己的业务逻辑即可，不必关心底层的通信机制等问题，即可编写出复杂高效的并行程序。如果说分布式并行编程的难度足以让普通程序员望而生畏的话，开源的Hadoop的出现极大的降低了它的门槛。

2、Mapreduce原理

Map-Reduce的处理过程主要涉及以下四个部分：

•Client进程：用于提交Map-reduce任务job；

•JobTracker进程：其为一个Java进程，其main class为JobTracker；

•TaskTracker进程：其为一个Java进程，其main class为TaskTracker；

•HDFS：Hadoop分布式文件系统，用于在各个进程间共享Job相关的文件；

其中JobTracker进程作为主控，用于调度和管理其它的TaskTracker进程, JobTracker可以运行于集群中任一台计算机上，通常情况下配置JobTracker进程运行在NameNode节点之上。TaskTracker负责执行JobTracker进程分配给的任务，其必须运行于DataNode上，即DataNode既是数据存储结点，也是计算结点。JobTracker将Map任务和Reduce任务分发给空闲的TaskTracker,让这些任务并行运行，并负责监控任务的运行情况。如果某一个TaskTracker出故障了，JobTracker会将其负责的任务转交给另一个空闲的TaskTracker重新运行。

3、HDFS存储的机制

Hadoop的分布式文件系统HDFS是建立在Linux文件系统之上的一个虚拟分布式文件系统，它由一个管理节点( NameNode )和N个数据节点( DataNode )组成，每个节点均是一台普通的计算机。在使用上同我们熟悉的单机上的文件系统非常类似，一样可以建目录，创建，复制，删除文件，查看文件内容等。但其底层实现上是把文件切割成Block（块），然后这些Block分散地存储于不同的DataNode上，每个Block还可以复制数份存储于不同的DataNode上，达到容错容灾之目的。NameNode则是整个HDFS的核心，它通过维护一些数据结构，记录了每一个文件被切割成了多少个Block，这些Block可以从哪些DataNode中获得，各个DataNode的状态等重要信息。

HDFS的数据块

每个磁盘都有默认的数据块大小,这是磁盘进行读写的基本单位.构建于单个磁盘之上的文件系统通过磁盘块来管理该文件系统中的块.该文件系统中的块一般为磁盘块的整数倍.磁盘块一般为512字节.HDFS也有块的概念,默认为64MB(一个map处理的数据大小).HDFS上的文件也被划分为块大小的多个分块,与其他文件系统不同的是,HDFS中小于一个块大小的文件不会占据整个块的空间.

任务粒度——数据切片（Splits）

把原始大数据集切割成小数据集时，通常让小数据集小于或等于HDFS中一个Block的大小(缺省是64M)，这样能够保证一个小数据集位于一台计算机上，便于本地计算。有M个小数据集待处理，就启动M个Map任务，注意这M个Map任务分布于N台计算机上并行运行，Reduce任务的数量R则可由用户指定。

HDFS用块存储带来的第一个明显的好处一个文件的大小可以大于网络中任意一个磁盘的容量,数据块可以利用磁盘中任意一个磁盘进行存储.第二个简化了系统的设计,将控制单元设置为块,可简化存储管理,计算单个磁盘能存储多少块就相对容易.同时也消除了对元数据的顾虑,如权限信息,可以由其他系统单独管理。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/笔触狂放9/article/detail/875778