搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
喵喵爱编程
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
【排序算法】—— 计数排序
2
词嵌入(Embeddings)_glove embeddings
3
Python&Numpy_python和numpy
4
如何在本地部署LLM并调用api进行大模型推理_vllm使用的api如何本地调用
5
Python搭建PySpark执行环境入口时出现RuntimeError: Java gateway process exited before sending its port number解决办法
6
MobaXterm20.0汉化多合一远程工具_mobaxterm汉化
7
ArcGIS Desktop使用入门(四)——ArcMap软件彻底卸载删除干净
8
Parallels Desktop使用教程之融合(Coherence)模式 Parallels Desktop 19 for Mac密钥激活码体验 parallels desktop怎么用_parallels融合模式设置
9
WSN的关键技术_简述wsn的关键技术。
10
macOs Big Sur “ 无法打开×××,因为无法验证开发者。“_无法打开“surge.app”,因为无法验证开发者
当前位置:
article
> 正文
一、初始Hadoop之一Hadoop三大组件
作者:喵喵爱编程 | 2024-07-24 16:18:22
赞
踩
一、初始Hadoop之一Hadoop三大组件
一、Hadoop的组件:
1、HDFS
一个高可靠、高吞吐量的分布式文件系统
存储海量数据
分布式
安全性
副本数据
数据是以block的方式进行存储的,128M
比如:200M---128M 72M
2、MapReduce
一个分布式的离线并行计算框架
对海量数据的处理
分布式
思想:
分而治之
大数据集分为小的数据集
每个数据集进行逻辑业务处理(map)
合并统计数据结果(reduce)
3、Yarn
分布式资源管理框架
管理整个集群的资源(内存、CPU核数)
分配调度集群的资源
4、Common
工具,基础,为基他Hadoop模块提供基础设施。
二、HDFS服务功能
NameNode是主节点,存储文件的元数据,如文件名、文件目录结构、文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在DataNode等。
DataNode在本地文件系统存储文件块数据,以及块数据的校验和。
SecondaryNameNode用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。
三、YARN服务功能
ResourceManager
处理客户端请求
启动/监控ApplicationMaster
监控NodeManager
资源分配与调度
NodeManager
单个节点上的资源管理
处理来自ResourceManager的命令
处理来自ApplicationMaster的命令
ApplicationMaster
数据切分
为应用程序申请资源,并分配给内部任务
任务监控与容错
Container
对任务运行环境的抽象,封装了CPU、内存等多维资源以及环境变量、启动命令等任务运行相关的信息
四、离线计算框架MapReduce
将计算过程分为两个阶段,Map和Reduce
Map阶段并行处理输入数据
Reduce阶段对Map结果进行汇总
Shuffle连接Map和Reduce两个阶段
Map Task将数据写到本地磁盘
Reduce Task从每个Map Task上读取一份数据
仅适合离线批处理
具有很好的容错性和扩展性
适合简单的批处理任务
缺点明显
启动开销大、过多使用磁盘导致效率低下等。
声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
【wpsshop博客】
推荐阅读
article
记一次 Centos7.4 搭建
Hadoop
3.2
.0(
HA
)
YARN
(
HA
)集群_
ha
...
一、基本信息官网 http://
ha
doop.apache.org/快速入门 http://
ha
doop.apache....
赞
踩
article
大
数据
-
Hadoop
-户
管理
界面
:
HUE
(
Hadoop
User
Experience
)【将Hado...
大
数据
-
Hadoop
-户
管理
界面
:hue【是
Hadoop
的
用户
管理
界面
,通过词工具对大
数据
各个软件进行更加友好
的
操作】大...
赞
踩
article
Hadoop
入门
教程
(超详细)_
hadoop
教程
...
文章目录1.
Hadoop
框架1.1
Hadoop
介绍1.1.1
Hadoop
是什么1.1.2
Hadoop
的发...
赞
踩
article
【大
数据
】
Hadoop
2.
X
和1.
X
升级
优化
对比_
hadoop
升级...
一文详解
hadoop
2.
X
版本对于1.
X
版本做出的
优化
和升级_
hadoop
升级
hadoop
升级 ...
赞
踩
article
hadoop
文件
划分
,
map
执行浅析_如果两
个
hdfs
文件
怎么设置要4
个
map
运行...
在执行一
个
Job的时候,Hadoop会将输入数据
划分
成N
个
Split,然后启动相应的N
个
Map程序来分别处理它们。数据如...
赞
踩
article
Hadoop
权威
指南
学习笔记(
一
)_
hadoop
权威
指南
笔记...
第
一
章 初始
Hadoop
由于寻址时间的提升远远不及传输速率的提升,所以不能用数据库来对大量硬盘上的大规模数据进行分析,许...
赞
踩
article
Hadoop
-
YARN
NodeManager
剖析_
hadoop
nodemanager...
一 概述
NodeManager
是运行在单个节点上的代理,它管理
Hadoop
集群中单个计算节点,功能包括与Resour...
赞
踩
article
《
Hadoop
权威指南》读书笔记之一 — Chapter 1_meet
hadoop
queryin...
《
Hadoop
权威指南》读书笔记01.
Hadoop
是干嘛的?02.如何展现其reliable, scalable?_m...
赞
踩
article
Hadoop
权威指南
读书笔记
(3) -
Hadoop
I/
O
_
arrayprimitivewrita...
hadoop I/
O
Writable
_
arrayprimitivewritable
arrayprimitivewrita...
赞
踩
article
hadoop
节点
nodemanager
启动失败原因小结~_
error
org.
apache
.hado...
slaves节点报错,报的是启动
nodemanager
所需内存不足ERROR org.
apache
.
hadoop
.ya...
赞
踩
article
Hadoop
NodeManager
无法启动问题解决_
nodemanage
r
.
nodemanage
r
...
最近在学习
Hadoop
的时候, 用虚拟机在Ubuntu中按照官网教程搭建好伪集群环境。 hdfs可以正常启动, 但是在启...
赞
踩
article
Hadoop
-
Yarn
-
NodeManager
是如何
启动
容器的_
hadoop
nodemanager
...
从源码了解
Hadoop
-
Yarn
-
NodeManager
是如何
启动
容器的_
hadoop
nodemanager
如何
启动
h...
赞
踩
article
hadoop
节点
nodemanager
启动失败_info org.
apache
.
hadoop
.yar...
在正常启动的
hadoop
的时候系统没有报错,但是JPS查看进程的时候发现缺少了节点管理器,查看后台的日志进程...问题:...
赞
踩
article
hadoop
contianer
内存
大小
配置 和一些其他配置_
hadoop
yarn
修改 cont...
一般都是像这样
yarn
jar
hadoop
-examples.jar pi 6 2000 写一些跑完就没事了,可是我发...
赞
踩
article
hadoop
2.6.0
yarn
total
memory
metrics
不正常...
https://issues.apache.org/jira/browse/YARN-3432转载于:https://w...
赞
踩
article
Hadoop
(
七)之
Yarm
集群
...
目录1、Yarn产生的原因1.1、MapreduceV1中,jobtracker存在瓶颈:1.2、将jobtracker...
赞
踩
article
大
数据
基础知识-
Hadoop
、
HBase
、
Hive
一篇搞定_
hive
hadoop
...
相应的,
数据
库由于规模较小,因此可以支持的
数据
规模较小,一般单张表中能存储百万条
数据
(最新版的MySQL经过优化,单表中...
赞
踩
article
Hadoop、
HDFS
、
Hive
、Hbase之间的关系_
hadoop
hdfs
hbase
hive
...
Hbase:是一款基于
HDFS
的数据库,是一种NoSQL数据库,主要适用于海量明细数据(十亿、百亿)的随机实时查询,如日...
赞
踩
article
Hadoop
+
hbase
+
hive
环境
搭建_基于
hadoop
部署
hive
和
hbase
...
Hadoop
是一个开发
和
运行处理大规模数据的平台,实现在多台计算机组成的集群中对海量数据进行分布式计算。
hadoop
框架...
赞
踩
article
Hadoop
、
HDFS
、
Hive
、Hbase区别及联系_
hadoop
hbase
hive
hdfs
...
Hadoop
、
HDFS
、
Hive
和HBase是大数据生态系统中的关键组件,它们都是由Apache软件基金会管理的开源项目...
赞
踩
相关标签
hadoop
hue
大数据
分布式
任务
mapreduce
interface
path
网络
读书笔记
内存
nodemanager
slaves启动失败
启动失败
yarn
pi
container
memory