Hadoop大数据通用处理平台_开源的hadoop大数据处理平台

作者：我家自动化 | 2024-05-12 17:25:17

踩

开源的hadoop大数据处理平台

Hadoop是一款开源的大数据通用处理平台，其提供了分布式存储和分布式离线计算，适合大规模数据、流式数据(写一次,读多次)，不适合低延时的访问、大量的小文件以及频繁修改的文件。

*Hadoop由HDFS、YARN、MapReduce组成。

如果想学习Java工程化、高性能及分布式、深入浅出。微服务、Spring，MyBatis，Netty源码分析的朋友可以加我的Java高级交流：854630135，群里有阿里大牛直播讲解技术，以及Java大型互联网技术的视频免费分享给大家。

Hadoop的特点：

Hadoop的使用场景：

Hadoop生态圈：

Hive：利用Hive可以不需要编写复杂的Hadoop程序，只需要写一个SQL语句，Hive就会把SQL语句转换成Hadoop的任务去执行，降低使用Hadoop离线计算的门槛。
HBase：海量数据存储的非关系型数据库，单个表中的数据能够容纳百亿行x百万列。
ZooKeeper：监控Hadoop集群中每个节点的状态，管理整个集群的配置，维护节点间数据的一致性。
Flume：海量日志采集系统。已经为大家精心准备了大数据的系统学习资料，从Linux-Hadoop-spark-......，需要的小伙伴可以点击

2.内部结构

2.1 HDFS

HDFS是分布式文件系统，存储海量的文件，其中HDFS中包含NameNode、DataNode、SecondaryNameNode组件等。

Block数据块

DataNode

NameNode

存储文件的元信息和文件与Block、DataNode的关系，NameNode运行时所有数据都保存在内存中，因此整个HDFS可存储的文件数受限于NameNode的内存大小。
每个Block在NameNode中都对应一条记录，如果是大量的小文件将会消耗大量内存，因此HDFS适合存储大文件。
NameNode中的数据会定时保存到本地磁盘中(只有元数据)，但不保存文件与Block、DataNode的位置信息，这部分数据由DataNode启动时上报和运行时维护。

*NameNode不允许DataNode具有同一个Block的多个副本，所以创建的最大副本数量是当时DataNode的总数。

*DataNode会定期向NameNode发送心跳信息，一旦在一定时间内NameNode没有接收到DataNode发送的心跳则认为其已经宕机，因此不会再给它任何IO请求。

*如果DataNode失效造成副本数量下降并且低于预先设置的阈值或者动态增加副本数量，则NameNode会在合适的时机重新调度DataNode进行复制。

SecondaryNameNode

HDFS写入文件的流程

HDFS Client向NameNode申请写入文件。
NameNode根据文件大小，返回文件要写入的DataNode列表以及Block id (此时NameNode已存储文件的元信息、文件与DataNode、Block之间的关系)
HDFS Client收到响应后，将文件写入第一个DataNode中，第一个DataNode接收到数据后将其写入本地磁盘，同时把数据传递给第二个DataNode，直到写入备份数个DataNode。
每个DataNode接收完数据后都会向前一

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/我家自动化/article/detail/559968