搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
知新_RL
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
大模型入门教程(非常详细)从零基础入门到精通,看完这一篇就够了_星辰大模型如何入门
2
Elasticsearch倒排索引结构_elasticsearch倒排索引底层数据结构
3
推荐2款开源、美观的WinForm UI控件库
4
仿美团外卖微信小程序源码/美团外卖优惠券领劵小程序-自带流量主模式_美团优惠券小程序源码
5
AI人工智能 Agent:高级概念剖析_ai agent tag
6
使用阿里云接口进行银行卡四要素实名认证
7
SpringBoot Actuator监控详解介绍_actuator端点
8
一键清除苹果锁屏密码_Aiseesoft iPhone Unlocker下载-苹果设备解锁工具 v1.0.22 官方版...
9
【OpenAI-Translator】AI翻译助手开发分享_openai translator
10
一文带你了解YOLO中的置信度_yolo 置信度
当前位置:
article
> 正文
Hadoop权威指南-读书笔记_hadoop权威指南 读后感
作者:知新_RL | 2024-07-22 15:05:05
赞
踩
hadoop权威指南 读后感
第
2
章
关于
MapReduce
2.1 Hadoop
集群架构
图
2.1 Hadoop
集群架构图
在图
2.1
中包括分布式数据处理模型
MapReduce
,分布式文件系统
HDFS
。
2.1.1 MapReduce
模型之
Job
与
Nodes
Ø
一个
job
由若干
task
组成:
l
若干
map tasks
l
若干
reduce tasks
Ø
控制
job
运行的两类
nodes:
l
1
个
jobtracker
:协调和控制系统中运行的所有
jobs
,以及所有在
tasktrackers
上运行的
tasks
l
若干
tasktrackers
:运行
task
,并向
jobtracker
发送进度报告(记录了每一个
job
的运行进度)
l
如果一个
task
失败了,
jobtracker
可以将其重新部署到另一个
tasktracker
上运行
2.1.2 HDFS
之
Namenode
与
Datanode
Ø
Namenode
与
Datanode
是
HDFS
中的概念。
Ø
被存储在
HDFS
中的数据以
block
为单位存储,且每一个
block
被复制多份存储在不同节点,以提供可靠性保证和高速访问。
Ø
HDFS
采用
master-slaves
的架构:
l
master
管理数据文件的
namepace
(
如
metadata
,目录结构,文件到
blocks
的映射,
blocks
的位置,访问权限等
)
l
slaves
则管理实际的数据
blocks
l
master
指导
client
对数据进行访问
Ø
在
GFS
中
l
master
被称作
GFS master
l
slaves
被称作
GFS chunkservers
Ø
在
Hadoop
中
l
master
被称作
namenode
l
slaves
则被称作
datanodes
图
2.2 MapReduce
层与
HDFS
层的对应关系
2.1.3 HDFS
架构
图
2.3 HDFS
架构图
2.2
数据流
图
2.4 MapReduce
执行过程数据流
2.2.1 Input splits, and records
Ø
MapReduce
的输入(
input file
)被切分为固定大小的
input splits
,简称
split
Ø
Hadoop
为每一个
split
都创建一个
map task
,该
map task
中的
map
函数会作用于
split
中的每一个
record.
Ø
一个
record
就是一个
key-value pair
注意:
input split
是对
record
(即
key-value pair
)在逻辑上的切分,而
HDFS
中的
block
是对输入数据的物理切分。当两者一致时,很高效,但是实际中往往不一致。
record
可能会跨越
block
的边界。
2.2.2 Split
的大小选择
Ø
Split
不该太大(失去
parallel
性)
Ø
也不该太小(额外的开销占比过大)
Ø
与
HDFS
中的一个
Block
的大小相同较为合适(
Block
默认为
64BM
)
2.2.3
移动计算,而不是移动数据
Ø
Task
在运行时需要数据
Ø
Job scheduler
会在已经有了所需数据的节点上启动对应的
task
,这样就实现了
data locality
2.2.4 map
与
reduce
的输出
Ø
Map task
的输出将被写入磁盘(
Linux
文件系统),而不是
HDFS
文件系统。为什么?
l
Map
的输出是中间临时结果(
intermediate key-value pairs
),它们作为
reduce tasks
的输入
l
一旦
job
结束,这些中间临时结果即被丢弃,不再需要
l
如果存入
HDFS
,就需要复制多份副本在网络上传输,浪费!
Ø
Reduce task
的输出会被写入到
HDFS
文件系统中
l
毕竟,它们的输出是用户最终需要的结果,要妥善保存
2.2.5
只有
1
个
reduce task
的数据流图
图
2.5
只有一个
Reduce
的数据流
参考消息:
Hadoop、HDFS数据流 解析 第二版 - (肖韬 南京大学计算机系)
Hadoop权威指南
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/知新_RL/article/detail/865721
推荐阅读
article
【
Hadoop
】集群配置之主要
配置文件
(
hadoo
p-env.sh、
yarn
-env.sh、
core
...
本文详细介绍了
Hadoop
项目的各种
配置文件
,包括
core
-
site
.
xml
、
hadoo
p-env.sh、
hdfs
-si...
赞
踩
article
AI
圣经《
深度
学习
》
读书笔记
----
第一章
:引言_
深度
学习
第一章
的
观后感
...
这本书从我开始
学习
深度
学习
时,就买了这本书。但是,因为自身知识储备不够,觉得这本书很难。多次想
学习
这本书,但是都失败...
赞
踩
article
【
读书笔记
】|25分钟读完《
软
技能
:
代码
之外
的生存指南》_
软
技能
代码
之外
的
生存之道
...
本文详细介绍了开发者必读书籍《
软
技能
---
代码
之外
的生存指南第二版》,包括推荐原因和阅读笔记,帮助读者不需要买书就能看完...
赞
踩
article
《
斯科特
·
凯尔
比
的
风光
摄影
手册》
读书笔记
...
斯科特
·
凯尔
比
的
风光
摄影
手册》
读书笔记
整理没有全部读完,选择了感兴趣
的
章节理解不足小伙伴帮忙指正 《
斯科特
·
凯尔
比
的
风光...
赞
踩
article
Java架构师之路七、大
数据
:
Hadoop
、
Spark
、
Hive
、
HBase
、
Kafka
等_hbas...
Hive
提供了一种类SQL语言,称为
Hive
QL,以便将结构化
数据
映射到
Hadoop
分布式文件系统中的表中,并提供了
数据
...
赞
踩
article
Hadoop
、
Hive
、
Spark
的
简单认识
和
总结_
hive
和
hadoop
先学哪个...
前言在大数据相关
的
工作
和
开发中,最常见
的
就是
Hadoop
、
Hive
、
Spark
这三个框架了,关乎大批量
的
数据处理,这三个...
赞
踩
article
[转]大数据环境搭建步骤详解(
Hadoop
,
Hive
,
Zookeeper
,
Kafka
,
Flume
,H...
大数据环境安装和配置(
Hadoop
2.7.7,
Hive
2.3.4,
Zookeeper
3.4.10,
Kafka
2.1.0,...
赞
踩
article
windows
下的
java
,
hadoop
,
spark
环境
搭建_
java
执行
spark
环境
准备...
最近新购置的电脑到货~ 准备从
环境
的搭建开始记录下我编程学习和工作成长的全过程. 废话不多说
,
开始搭建
windows
下的...
赞
踩
article
Hadoop
+Spark 大
数据分析
(一)之
虚拟机
安装及
Java
环境
的配置_
vmware
虚拟机
上基...
系统与平台文章目录目录系统与平台文章目录前言一、系统
环境
二、系统设计1.主机分配2.功能分配三、
环境
准备1.安装
虚拟机
...
赞
踩
article
大数据系统常用组件理解(
Hadoop
/
hive
/
kafka
/
Flink
/
Spark
/Hbase/ES...
Spark
streaming接收
kafka
、Flume、HDFS、套接字等各种来源实时输入数据,进行处理,处理后结构数...
赞
踩
article
Redis
深度
历险
:
核心
原理
与
应用
实践 -
读书笔记
...
不过你也不必过于担心,因为
Redis
对 HyperLogLog 的存储进行了优化,在计数比较小时,它的存储空间采用稀...
赞
踩
article
Hadoop
-36
HBase
3节点云
服务器
集群
HBase
Shell
增删改查 全程多图详细 ...
上节完成了:
HBase
的集群启动测试,
HBase
Shell
的简单测试。本节开始学习
Shell
的增删改查方法,对
列族
、Ro...
赞
踩
article
Hadoop
-30
ZooKeeper
集群
Java
API 客户端 POM
Java
操作ZK
监听
节...
上一节完成了ZK的命令操作:创建、读取、删除
节点
等操作。本节用
Java
API进行操作,实现创建、删除、
监听
节点
、
监听
变化...
赞
踩
article
Unable to
load
native
-
hadoop
library
for
your plat...
Unableto
load
native
-
hadoop
library
for
your plat
for
m问题:在运行h...
赞
踩
article
Unable to
load
native
-
hadoop
library
for
your plat...
在执行hdfs命令时,会有一个警告:WARN util.NativeCodeLoader: Unable to
load
...
赞
踩
article
[已解决]启动
hadoop
时start-dfs.sh警告:499
WARN
util
.NativeC...
[已解决]启动
hadoop
时start-dfs.sh警告:499
WARN
util
.
NativeCodeLoader
:...
赞
踩
article
win10 安装
hadoop
3.3.1报错 Unable to
load
native
-hado...
winutils.exe,
hadoop
.dll 放到 %HADOOP_HOME%\bin 目录, 有时可能需要将 ha...
赞
踩
article
Hadoop启动警告:WARN uti
l
.NativeCodeL
oad
er: Unab
l
e
to
l
...
最近在虚拟机上安装
hadoop
。但是在启动的时候有一个警告。WARN uti
l
.NativeCodeL
oad
er: Un...
赞
踩
article
Hadoop
util
.NativeCodeLoader: Unable to
load
nativ...
参考资料:http://blog.sina.com.cn/s/blog_3d9e90ad0102wqrp.html报错呈...
赞
踩
article
解决
Unable
to
load
native
-
hadoop
library
for your p...
启动Hadoop总是提示报错信息:18/09/19 11:29:08 WARN util.NativeCodeLoade...
赞
踩
相关标签
hadoop
xml
hdfs
深度学习
学习笔记
笔记
程序人生
职场和发展
数码相机
风景
大数据
java
Hadoop
Hive
Zookeeper
Kafka
Flume
spark
数据挖掘
hive
kafka
flink
redis