赞
踩
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的未来进行高速运算和存储。
Hadoop的分布式架构,将大数据处理引擎尽可能的靠近存储,MapReduce功能实现了将单个任务打碎,并将碎片任务(Map)发送到多个节点上,之后再以单个数据集的形式加载(Reduce)到数据仓库里
对于Hadoop分布式文件系统(HDFS)来说,大数据处理通过三份以上存储来支持数据的高可用性。
HDFS和MapReduce是Hadoop的两大核心,除此之外,Hbase、Hive这两个核心工具也随着Hadoop发展变得越来越重要。同时,在Hadoop2.0之后,在HDFS的基础上增加了YARN,是一个资源管理框架,在YARN上既可以放MapReduce,也可以防止其它的计算资源,主要是管理资源的,如CPU,硬盘,内存,网络等
HDFS(hadoop Distributed File System)是分布式文件管理系统中的一种,用来管理多台机器上的文件,通过目录树来定位文件
HDF为主(Master)/从(Slave)架构:一个NameNode,多个DataNode
HDFS核心架构
HDFS的几个核心概念
数据写入过程
数据读取过程
先举个比较形象的例子
MapReduce是一个单独运行在主节点上的JobTracker和运行在每个集群从节点上的TaskTracker共同组成
HDFS和MapReduce共同组成Hadoop分布式系统体系结构的核心
HDFS在集群上实现了分布式文件系统,MapReduce在集群上实现了分布式计算和任务处理
MapReduce V1架构
几个核心概念
MapReduce V2/Yarn架构
MapReduce V2/Yarn 作业执行流程
Yarn是一个分布式资源管理系统,负责集群机器资源的隔离、分配和管理
Yarn在真个hadoop生态处理中心枢纽的位置,各种分布式计算框架(MR、spark、tez、Flink)可以运行在Yarn上,让各种计算框架无需各自实现资源分配机制,更加纯粹专注做分布式计算相关工作
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。