赞
踩
分散->汇总模式:
1. 将数据分片,多台服务器各自负责一部分数据处理
2. 然后将各自的结果,进行汇总处理
3. 最终得到想要的计算结果
1. 什么是计算、分布式计算?
2. 分布式计算常见的2种工作模式
分布式计算框架 - MapReduce
MapReduce是“分散->汇总”模式的分布式计算框架,可供开发人员开发相关程序进行分布式数据计算。
MapReduce提供了2个编程接口:
其中
用户如需使用MapReduce框架完成自定义需求的程序开发
只需要使用Java、Python等编程语言,实现Map Reduce功能接口即可。
MapReduce执行原理:
一个案例,简单分析一下,MapReduce是如何完成分布式计算的。
假设有如下文件,内部记录了许多的单词。且已经开发好了一个MapReduce程序,功能是统计每个单词出现的次数。
MapReduce执行原理:
假定有4台服务器用以执行MapReduce任务
可以3台服务器执行Map,1台服务器执行Reduce
1. 什么是MapReduce
2. MapReduce的主要编程接口
3. MapReduce的运行机制
MapReduce是基于YARN运行的,即没有YARN”无法”运行MapReduce程序
YARN的资源调度
YARN 管控整个集群的资源进行调度, 那么应用程序在运行时,就是在YARN的监管(管理)下去运行的。
这就像:全部资源都是公司(YARN)的,由公司分配给个人(具体的程序)去使用。
比如,一个具体的MapReduce程序。
我们知道, MapReduce程序会将任务分解为若干个Map任务和Reduce任务。
假设,有一个MapReduce程序, 分解了3个Map任务,和1个Reduce任务,那么如何在YARN的监管(管理)下运行呢?
1. YARN是做什么的?
2. 为什么需要资源调度
3. 程序如何在YARN内运行
4. MapReduce和YARN的关系
1. YARN的架构有哪2个角色?
2. 两个角色各自的功能是什么?
3. 什么是YARN的容器?
YARN辅助角色
YARN的架构中除了核心角色,即:
还可以搭配2个辅助角色使得YARN集群运行更加稳定
YARN的架构有哪些角色
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。