搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
我家小花儿
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
flowable工作流-过滤发起人节点表单_ruoyi-flowable-plus 审批人
2
你应该知道的21大Python量化交易工具
3
【开源数据集】电动车佩戴头盔检测数据集(TWHD)
4
Python循环结构基础-continu/break
5
图卷积神经网络(GCN)实战_图神经网络实战
6
太强了! ChatGPT能上传文件了,文档图片数据集秒理解_chatgpt3.5 上传文档
7
智能灯控(基于ZigBee)
8
让照片动起来的工具有哪些呢?用过这些真不错_让老照片动起来
9
python path configuration_Pycharm-在远程解释器中配置PYTHONPATH
10
软件崩溃时Visual Studio中看不到有效的调用堆栈,使用Windbg动态调试去分析定位_visual studio 堆栈分析
当前位置:
article
> 正文
Haddop,HDFS和MapDeduce简单理论_mapdeduce读写六ic能
作者:我家小花儿 | 2024-07-16 15:05:01
赞
踩
mapdeduce读写六ic能
Hadoop
Hadoop
1 Hadoop
2 HDFS
3. MapDeduce
Hadoop
1 Hadoop
开源的分布式存储+分布式计算平台
核心组件:HDFS:分布式文件系统,存储海量数据。MapReduce:并行处理框架,实现任务分解和调度。
搭建大型数据仓库,PB级数据的存储,处理,分析,统计等业务。
优势:高扩展,低成本,成熟的生态圈。
hive:将sql语句转成hadoop任务去执行,降低hadoop的门槛。
hbase:存储结构化数据的分布式数据库。放弃了事务特性,追求更高的扩展。提供了数据的随机读写和实时访问,实现了对表数据的读写功能。
zookeeper:监控hadoop集群里面每个节点的状态。管理整个集权的配置。维护节点之间的一致性。
2
HDFS
hadoop的文件系统
块 - 文件被分成块存储,默认大小64M,是文件存储处理的逻辑单元
节点
nameNode:管理节点,存放文件元数据。文件和数据库的映射表,数据库与数据节点的映射表。
dateNode:工作节点,存放数据块。
数据管理策略:
每个数据块3个副本,分布在两个机架内的三个节点。
心跳检测 DataNode定期向NameNode发送心跳信息。
二级NameNode定期同步元素据映像文件和修改日志,NameNode发生故障时,备胎转正。
HDFS读
客户端向NameNode发起读写请求,NameNode查询元数据。
DataNode读取Blocks
HDFS写
客户端文件拆分为Bolcks ,通知NameNode找到并返回在线的,有磁盘空间的DataNode
写入DataNode,并复制备份,最后更新元数据。
特点:
数据冗余,实现硬件容错。
流式数据访问,一次写入多次使用,一旦写入无法修改。
适合存储大文件。
适合一次写入多次读取,顺序读写。
不支持多用户并发写相同文件。
3. MapDeduce
分而治之,将一个大任务分成多个小的子任务(map),并行执行后,合并结果(reduce)
运行流程
Job & Task :
JobTracker 作业调度,分配任务,监控任务执行进度。(Reduce端)
TaskTracker 执行任务,汇报任务状态。(Map端)
容错机制
重复执行 4次
推测执行 对执行慢的在创建一个同样执行 谁快用谁 谁慢停谁。
声明:
本文内容由网友自发贡献,转载请注明出处:
【wpsshop博客】
推荐阅读
article
Sqoop
【实践 01】
Sqoop
1最新版
MySQL
与
HDFS
\
Hive
\
HBase
核心
导入
导出...
Sqoop
1最新版
MySQL
与
HDFS
\
Hive
\
HBase
核心
导入
导出案例分享+多个
WRAN
及
Exception
问...
赞
踩
article
HDFS
特点_
hpfs
系统文件
的特点...
HDFS
专为解决大数据存储问题而产生的,其具备了以下特点:1)
HDFS
文件系统可存储超大文件每个磁盘都有默认的数据...
赞
踩
article
【
Hadoop
笔记
_
2】
HDFS
、
项目
实例
、
实例
分析
_
vanhdfs
举例...
由于文章太长,第一部分在我的另外一篇博客中4
、
HDFS
HDFS
作用:进行分布式的存储
HDFS
(
Hadoop
Distri...
赞
踩
article
基于
spring
boot
,
hdfs
的网盘系统(基础框架)(云
服务器
搭建的
分布式
架构上的
hdfs
,wi...
基于
spring
boot
,
hdfs
的网盘系统(云
服务器
搭建的
分布式
架构上的
hdfs
,
windows
编译器
IDEA
,包含全...
赞
踩
article
集群扩容
DataNode
报错:Invalid
dfs
.
data
node.
data
.dir /
data
...
在尝试集群扩容时,新增
DataNode
数据目录报EPERM错误。问题根源是目录权限不符,正常目录属于'
h
dfs
'用户和'...
赞
踩
article
Hadoop
启动 HDFS
DataNode
时报错:Invalid
dfs
.
data
node.d...
文章目录环境描述问题现象问题分析解决方案总结环境描述操作系统:CentOS 6.5
Hadoop
:Apache Hadoo...
赞
踩
article
ERROR
org
.
apache
.
hadoop
.hdfs.server.
data
node.DataN...
几天前配置好了
hadoop
1.2.1,一直好好的。自从更改了core-site.xml中的
hadoop
.tmp.dir为...
赞
踩
article
Hdfs
datanode
启动
问题
_
hdfs
datanode
10
分钟+
30
秒...
场景:项目组6个节点中,某一节点硬盘寿命到了,由于当时硬盘做的raid0,没有备份,更换新硬盘后,启动
datanode
遇...
赞
踩
article
Hadoop
生态系统
(
HDFS
、
ZooKeeper
、MapRuduce、Pig....)_pig和h...
Hadoop
是一个能够对大量数据进行分布式处理的软件框架,具有可靠、高效、可伸缩的特点。。
Hadoop
2.0版本引入了...
赞
踩
article
【图解大数据技术】
Hadoop
、
HDFS
、
MapReduce
、
Yarn
_haddop
hdfs
ma...
MapReduce
是一个分布式离线计算框架,专门用于处理大数据场景中与实时性无关的一些离线计算任务。
MapReduce
的...
赞
踩
article
大
数据
Hadoop
入门——
HDFS
、Yarn、
MapReduce
_
hdfs
,
mapreduce
,ya...
Hadoop
框架详细个人总结——
Hadoop
入门篇大
数据
是什么?
Hadoop
基本概念介绍一、什么是
Hadoop
?二、Ha...
赞
踩
相关标签
hive
sqoop
mysql
hbase
hadoop
ETL
大数据
hdfs
linux
spring boot
分布式
datanode
zookeeper
缓存
容器
mapreduce
yarn