当前位置:   article > 正文

大数据框架之Hadoop_hdfs存储600mb数据图

hdfs存储600mb数据图

1990年1月

在这里插入图片描述
很久以前的生成的数量非常小,速度相对缓慢。几乎所有的数据都是文件行和列的形式。

存储和处理这些数据并不麻烦。因为单个存储单元和处理器组合就可以完成这项工作。

2005年4月

在这里插入图片描述

半结构化和非结构化数据现在以电子邮件、图像、音频和视频等形式出现。这些数据统称为大数据

解决方案

在这里插入图片描述
而且存储单元处理器组合显然还不够,那么解决方案是什么呢?多个存储单元和处理器无疑是当下的需要。这个概念被并入Hadoop框架中。该框架可以有效地存储和处理大量数据。通过使用硬件集群。

在这里插入图片描述

Hadoop的三大组件

Hadoop由三个专门为处理大数据而设计的组件组成。为了充分利用数据,第一步是存储数据。Hadoop的第一个组件是它的存储单元Hadoop分布式文件系统又称之为HDFS

在这里插入图片描述

存储单元

在一台电脑上储存大量数据是不可行的。因此,数据分布在许多计算机中以块的形式存储。如果你有600MB的数据要存储,HDFS将数据分成多个数据块,然后存储在集群中的几个数据节点上,128MB是每个块的默认大小。因此600MB将被分成4个块。A、B、C、D块各128MB,剩下的88MB在最后的块E。

HDFS容错

如果一个数据节点崩溃了,我们会丢失那块特定的数据吗?并不会,这就是HDFS的魅力所在。HDFS对数据进行拷贝并将其存储在多个系统中。例如,当块A被创建时,将其复制并存储在不同的数据节点上,这被称为复制方法。

在这里插入图片描述
这样做,即使一个数据节点崩溃,由于HDFS容错也不会损失任何数据。
在这里插入图片描述

MapReduce

成功存储数据后,需要对数据进行处理,这就是Hadoop第二个组件,MapReduce
在这里插入图片描述
MapReduce发挥作用的地方在传统数据处理方法中,整个数据都是在一台具有单个处理器的机器上处理的。既费时又低效。特别是在处理大量各种数据时更是如此。为了克服这个问题,MapReduce将数据分成多个部分,并在不同数据节点上分别处理每个部分,然后将各个结果汇总并最终输出

具体实例

让我们试着用这个例子来计算单词的出现次数。

在这里插入图片描述

首先,输入基于句号被分成五个独立的段落。下一步是映射器阶段。其中计算每个单词的出现次数并分配一个数字。之后根据相似的单词进行排序和分组。接下来,所有分组的单词都会被计数。最后,通过汇总结果显示输出。所有这些通过编写一个简单程序即可完成。类似地MapReduce对大数据的每个部分进行单独处理,最后将结果汇总,这改善了负载平衡并节省了大量时间。

YARN

在这里插入图片描述
现在我们已经准备好了MapReduce是时候在Hadoop集群上运行了,这是在内存、网络带宽和CPU等资源的帮助下完成的。多个作业在Hadoop上同时运行,它们都需要硬件资源来成功完成任务。为了有效地管理这些资源,我们使用了Hadoop的第三个组件,这称之为YARN

YARN由资源管理器、节点管理器、应用管理器和容器组成。资源管理器分配资源,节点管理器处理节点并监控节点中的资源使用情况。容器包含物理资源的集合。假设我们想要处理创建的MapReduce作业。首先应用管理器从节点管理器请求容器,节点管理器获得资源后,将它们发送给资源管理器。这样YARN在Hadoop中就可以处理作业请求并管理集群资源

其他组件

在这里插入图片描述
除了这些组件,Hadoop还有各种大数据工具和框架,专门用于管理、处理和分析数据

Hadoop生态系统还包括其他几个组件,如HIVE PIG SPARK FLUME和SCOOP等等。Hadoop生态系统共同致力于大数据管理。

HDFS三种模式的优势

HDFS的三种模式的优势是什么?
A. 支持并行处理
B. 更快的数据分析
C. 确保容错
D. 管理集群资源

应用

在这里插入图片描述

Hadoop有很多应用,比如数据仓库、推荐系统、欺诈检测等。

参考资料什么是Hadoop,浅谈大数据框架Hadoop

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/秋刀鱼在做梦/article/detail/875762
推荐阅读
相关标签
  

闽ICP备14008679号