赞
踩
Hadoop是由Apache基金会所发布的开源的分布式计算框架,由Java语言编写,主要用于处理大规模的数据集的处理和分析。它基于Google的MapReduce算法和Google文件系统(GFS)的思想,提供了一个可靠,高效,可扩展的分布式计算平台。
Hadoop可以运行在廉价的硬件上,而且提供了高吞吐量,通过横向扩展的方式提高计算能力,因此被广泛应用与大数据处理领域。
存储系统:是指用于存储数据的系统,包括文件系统、数据库系统等。
在Hadoop中,HDFS是Hadoop分布式文件系统,它是Hadoop的核心组件之一。
HDFS采用了Master/Slave的架构,
HDFS的优点是具有高可靠性、高可扩展性、高吞吐量等特点,适合存储大规模数据集。
计算环节:是指对存储在存储系统中的数据进行计算的过程,包括数据的读取、处理和输出等。
在Hadoop中,MapReduce是Hadoop的计算框架,它采用了Map和Reduce两个阶段,其中Map阶段负责将输入数据切分成若干个小块,并对每个小块进行处理,输出中间结果;Reduce阶段负责将中间结果进行合并,得到最终的输出结果。
MapReduce是一种分布式计算模型,用于处理大规模数据集。它将数据分成多个小块,然后在多个计算节点上并行处理这些小块。MapReduce的工作原理如下:
Map阶段:将输入数据分成多个小块,然后在多个计算节点上并行处理这些小块。每个计算节点都会执行Map函数,将输入数据转换成键值对。
Shuffle阶段:将Map函数的输出结果按照键进行分组,然后将同一组的键值对发送到同一个Reduce节点上。
Reduce阶段:将同一组的键值对发送到同一个Reduce节点上,然后在该节点上执行Reduce函数,将同一组的键值对合并成一个结果。
输出结果:将所有Reduce节点的输出结果合并成一个最终结果。
MapReduce的优点是具有高可靠性、高可扩展性、高并发性等特点,适合处理大规模数据集。
资源分配:是指将计算任务分配给集群中的各个节点进行处理的过程,包括任务调度、资源管理等。
在Hadoop中,YARN(Yet Another Resource Negotiator)是Hadoop的资源管理系统,它负责集群中各个节点的资源管理和任务调度。
YARN采用了Master/Slave的架构,其中ResourceManager作为Master节点,负责管理集群中的资源,NodeManager作为Slave节点,负责管理单个节点的资源。ResourceManager负责对各个NodeManager上的资源进行统一管理和任务调度。
YARN的基本结构包含ResourceManager、NodeManager、ApplicationMaster三个组件
YARN的优点是具有高可靠性、高可扩展性、高灵活性等特点,适合管理大规模集群的资源。
假设有一个大型电商网站,需要对用户的购物行为进行分析,以便提高销售额。
首先,需要将用户的购物数据存储到HDFS中,以便后续的计算。
然后,使用MapReduce计算框架对购物数据进行处理,得到用户的购物行为特征。
最后,使用YARN资源管理系统将计算任务分配给集群中的各个节点进行处理,以提高计算效率。
HDFS(分布式文件存储系统):解决大规模数据集
YARN(资源管理系统):将计算任务分配给集群中的各个节点进行处理
MapReduce(分布式计算框架):对存储在HDFS中的数据进行计算
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。