大数据框架之Hadoop_hdfs存储600mb数据图

作者：秋刀鱼在做梦 | 2024-07-24 16:26:16

踩

hdfs存储600mb数据图

大数据框架之Hadoop

1990年1月
2005年4月
解决方案
Hadoop的三大组件
其他组件
HDFS三种模式的优势
应用

1990年1月

在这里插入图片描述
很久以前的生成的数量非常小，速度相对缓慢。几乎所有的数据都是文件行和列的形式。

存储和处理这些数据并不麻烦。因为单个存储单元和处理器组合就可以完成这项工作。

2005年4月

在这里插入图片描述

半结构化和非结构化数据现在以电子邮件、图像、音频和视频等形式出现。这些数据统称为大数据。

解决方案

在这里插入图片描述
而且存储单元处理器组合显然还不够，那么解决方案是什么呢？多个存储单元和处理器无疑是当下的需要。这个概念被并入Hadoop框架中。该框架可以有效地存储和处理大量数据。通过使用硬件集群。

在这里插入图片描述

Hadoop的三大组件

Hadoop由三个专门为处理大数据而设计的组件组成。为了充分利用数据，第一步是存储数据。Hadoop的第一个组件是它的存储单元。Hadoop分布式文件系统又称之为HDFS。

在这里插入图片描述

存储单元

在一台电脑上储存大量数据是不可行的。因此，数据分布在许多计算机中以块的形式存储。如果你有600MB的数据要存储，HDFS将数据分成多个数据块，然后存储在集群中的几个数据节点上，128MB是每个块的默认大小。因此600MB将被分成4个块。A、B、C、D块各128MB，剩下的88MB在最后的块E。

HDFS容错

如果一个数据节点崩溃了，我们会丢失那块特定的数据吗？并不会，这就是HDFS的魅力所在。HDFS对数据进行拷贝并将其存储在多个系统中。例如，当块A被创建时，将其复制并存储在不同的数据节点上，这被称为复制方法。

在这里插入图片描述
这样做，即使一个数据节点崩溃，由于HDFS容错也不会损失任何数据。

MapReduce

成功存储数据后，需要对数据进行处理，这就是Hadoop第二个组件，MapReduce。
在这里插入图片描述
MapReduce发挥作用的地方在传统数据处理方法中，整个数据都是在一台具有单个处理器的机器上处理的。既费时又低效。特别是在处理大量各种数据时更是如此。为了克服这个问题，MapReduce将数据分成多个部分，并在不同数据节点上分别处理每个部分，然后将各个结果汇总并最终输出。

具体实例

让我们试着用这个例子来计算单词的出现次数。

在这里插入图片描述

首先，输入基于句号被分成五个独立的段落。下一步是映射器阶段。其中计算每个单词的出现次数并分配一个数字。之后根据相似的单词进行排序和分组。接下来，所有分组的单词都会被计数。最后，通过汇总结果显示输出。所有这些通过编写一个简单程序即可完成。类似地MapReduce对大数据的每个部分进行单独处理，最后将结果汇总，这改善了负载平衡并节省了大量时间。

YARN

在这里插入图片描述
现在我们已经准备好了MapReduce是时候在Hadoop集群上运行了，这是在内存、网络带宽和CPU等资源的帮助下完成的。多个作业在Hadoop上同时运行，它们都需要硬件资源来成功完成任务。为了有效地管理这些资源，我们使用了Hadoop的第三个组件，这称之为YARN。

YARN由资源管理器、节点管理器、应用管理器和容器组成。资源管理器分配资源，节点管理器处理节点并监控节点中的资源使用情况。容器包含物理资源的集合。假设我们想要处理创建的MapReduce作业。首先应用管理器从节点管理器请求容器，节点管理器获得资源后，将它们发送给资源管理器。这样YARN在Hadoop中就可以处理作业请求并管理集群资源。

其他组件

在这里插入图片描述
除了这些组件，Hadoop还有各种大数据工具和框架，专门用于管理、处理和分析数据。

Hadoop生态系统还包括其他几个组件，如HIVE PIG SPARK FLUME和SCOOP等等。Hadoop生态系统共同致力于大数据管理。

HDFS三种模式的优势

HDFS的三种模式的优势是什么？
A. 支持并行处理
B. 更快的数据分析
C. 确保容错
D. 管理集群资源

应用

在这里插入图片描述

Hadoop有很多应用，比如数据仓库、推荐系统、欺诈检测等。

参考资料：什么是Hadoop，浅谈大数据框架Hadoop

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/秋刀鱼在做梦/article/detail/875762