赞
踩
MapReduce是一种分布式编程模型,主要用于处理和生成大规模数据集。以下是其基本运行流程:
作业提交(Job Submission):
资源分配与任务调度(Resource Allocation & Task Scheduling):
任务执行(Task Execution):
map()
函数进行处理,并输出键值对 <key, value>
到本地磁盘上的环形缓冲区(Circular Buffer)。缓冲区溢写与分区排序(Buffer Overflow & Partitioning & Sorting):
合并中间文件(Intermediate File Merge):
shuffle阶段(Shuffle Phase):
Reduce任务执行(Reduce Task Execution):
reduce()
函数,处理每个key的所有value,产生最终结果。作业完成与清理(Job Completion & Cleanup):
监控与容错(Monitoring & Fault Tolerance):
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。