搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
Gausst松鼠会
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
大专生如何进大厂?_专科毕业怎么进大厂
2
三分钟教你Mac下安装VmWare虚拟机_mac虚拟机
3
python编译成c语言-cython编译Python为c语言
4
如何在ubuntu18.04下安装Firefox中国版解决Ubuntu与Windows下Firefox账号同步问题(已解决)_ubuntu 1804下载火绒
5
Linux:超级管理员(root用户)创建用户、用户组_linux创建管理员用户root
6
Python 测试框架之 pytest框架详解_python test框架
7
UCAS - AI学院 - 自然语言处理专项课 - 第10讲 - 课程笔记_xinshuai dong ucas
8
讲真,一位8 年 Java 经验大牛的面试总结,你照猫画虎还怕收不到offer?_8年java经验面试都问啥
9
数据结构和算法学习之路——堆排序(C++)_用筛选法将该序列构建小顶堆,并将最小元素输出后的剩余元素调整为堆,以完全二叉树
10
大智能:大数据+大模型+大算力_大算力大数据大模型
当前位置:
article
> 正文
Mapreduce阶段性复习
作者:Gausst松鼠会 | 2024-06-11 05:53:54
赞
踩
Mapreduce阶段性复习
Mapreduce
阶段性复习
1. 什么是分布式并行编程?并行和并发分别的定义?
2.什么是Map,什么是Reduce?Map函数的输入和输出?Reduce函数的输入和输出?
3.解释“计算向数据靠拢”
4.解释“数据向计算靠拢”:
5.Shuffle的具体过程?
6.Mapreduce的体系结构包含哪些组件?它们分别的作用是什么?
7. Tasktracker在汇报心跳信息的时候,需要汇报自己的资源使用情况,它是怎么评估,衡量或者计算自己的资源使用情况的?
8.完整的描述MapReuce工作流程?
1. 什么是分布式并行编程?并行和并发分别的定义?
分布式并行编程:分布式程序运行在大规模计算机集群上,并行执行大规模数据处理任务,而多台计算机同时运行相关程序
并行:不同的代码同时执行
并发:不同的代码交替执行
2.什么是Map,什么是Reduce?Map函数的输入和输出?Reduce函数的输入和输出?
Map: 映射
Reduce: 归约
Map函数:输入一个键值对,输出一组中间键值对
Reduce函数:输入一个键以及相关的一组值,输出另一个键值对
3.解释“计算向数据靠拢”
将要处理的数据块找到,然后找到离它最近的Map机器将Map函数发送到该数据节点,做Map运算
4.解释“数据向计算靠拢”:
先选择一个计算机作为数据处理的节点,然后把负责处理数据的程序放到该计算机节点上运行(拉取数据)
5.Shuffle的具体过程?
Map端:
从HDFS中取得数据,然后进行分片,然后再将每个分片作为Map函数的输入(每个分片对应一个相应Map任务,它们之间各干各的)
进入到Map函数中,被处理之后,从一个键值对,变成了一堆键值对,这一堆键值对会先被写入缓存中
在缓存中积累一定数量的Map输出结果后再一次性批量写入磁盘(缓存满时,会进行溢写操作)
Reduce端:
从Map机器领回属于自己处理的数据,然后对这些数据也进行一个归并,然后将这些归并之后的数据交给Reduce机器,用里面的Reduce函数进行处理,得到最终的结果,并将结果存储到HDFS中
6.Mapreduce的体系结构包含哪些组件?它们分别的作用是什么?
Client(客服端):
用户编写的MapReduce程序通过Client提交到JobTracker端
用户可通过Client提供的一些接口查看作业的运行状态
JobTracker(作业跟踪器):
主要负责资源监控和作业调度,监控所有TaskTracker与作业job的健康状况。
Task Scheduler(任务调度器):
负责具体的任务调度
TaskTracker(任务追踪器):
是JobTracker和Task之间的桥梁
从JobTracker接收并执行各种命令
将本地节点上各个任务的状态通过心跳机制周期性汇报给JobTracker
Task:
在hadoop中每个应用程序被表示成一个作业(Job),每个作业又被分成多个任务(Task)
7. Tasktracker在汇报心跳信息的时候,需要汇报自己的资源使用情况,它是怎么评估,衡量或者计算自己的资源使用情况的?
TaskTracker 使用 slot(槽)来衡量某个节点的资源的容量
TaskTracker将本节点上所有的内存和CPU之类的计算资源做一个统计,而slot会等量划分这些资源,从而得到一个自己所拥有的slots总量,这就是资源使用情况(slot的数量)
8.完整的描述MapReuce工作流程?
从HDFS中取得数据,然后进行分片,然后再将每个分片作为Map任务的输入
数据进入到Map函数中,被处理之后,从一个键值对,变成了一堆键值对,这一堆键值对会先被写入缓存中,然后做Map端的Shuffle过程进行分区,排序,归并,然后溢写到磁盘中
溢写到磁盘中的数据,已经排好序,这些数据需要发送到Reduce机器上去完成Reduce的过程
Reduce机器会将属于它的那个分区的数据,取回到自己的机器上,然后经过Reduce函数的处理之后,写入到HDFS中,至此,整个MapReduce应用程序的执行过程结束
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/701988
推荐阅读
article
大
数据
3、
MapReduce
编程
模型基础和实战
_
大
数据
作业
三
mapreduce
编程
...
本系列为
大
数据
学习个人笔记,如有错误,欢迎指正,也欢迎各路朋友交流讨论。
MapReduce
是啥?
MapReduce
是一种...
赞
踩
article
python
操作
hadoop
_使用
Python
操作
Hadoop
,
Python
-
MapReduce
...
环境环境使用:
hadoop
3.1,
Python
3.6,ubuntu18.04
Hadoop
是使用Java开发的,推荐使用J...
赞
踩
article
大
数据
:
Hadoop
基础常识
hive
,
hbase
,
MapReduce
,Spark_
hbase
hdf...
今天关于面试的分享就到这里,还是那句话,有些东西你不仅要懂,而且要能够很好地表达出来,能够让面试官认可你的理解,例如Ha...
赞
踩
article
大数据
Hadoop
核心架构
HDFS
+
MapReduce
+
Hbase
+
Hive
内部机理详解_
hdfs
...
HDFS
的体系架构 整个
Hadoop
的体系结构主要是通过
HDFS
来实现对分布式存储的底层支持,并通过MR来实现对分布式...
赞
踩
article
Thinking in BigData(八)大
数据
Hadoop
核心架构
HDFS
+
MapReduce
+...
纯干货:
Hadoop
核心架构
HDFS
+
MapReduce
+
Hbase
+
Hive
内部机理详解。 通过这一阶段的调研总结,...
赞
踩
article
对
Hadoop
和
Hive
的
初步认识_
hive
hdfs
mapreduce
...
一、
Hadoop
Hadoop
是有Apache基金会所开发
的
分布式系统处理架构,是一个能够对大量数据进行分布式处理
的
软件框...
赞
踩
article
HDFS
+
MapReduce
+
Hive
+
HBase
十分钟
快速入门(
zhuan
)...
HDFS
+
MapReduce
+
Hive
+
HBase
十分钟
快速入门易剑 2009-8-191. 前言本文的目的是让一个从未...
赞
踩
相关标签
mapreduce
hadoop
big data
python操作hadoop
大数据
hive
hbase
hdfs
数据仓库
HBase
Mapreduce
Hadoop
Ant
SSH