搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
不正经
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
SegmentAnything官网demo使用vue+python实现
2
【AI视野·今日NLP 自然语言处理论文速览 第七十八期】Wed, 17 Jan 2024
3
租一台服务器多少钱决定服务器的价格因素有哪些
4
oracle数据库为什么需要监听?_数据库监听是什么意思
5
我的世界Java版账号迁移至微软账号及相关注意事项_微软mc与javamc 绑定
6
C语言简易小游戏_c语言小游戏
7
系统架构设计笔记(88)—— 身份认证与访问控制_身份认证与访问控制是在
8
PyQt5学习笔记--加载Qt Designer设计的ui文件_from pyqt5 import uic
9
OpenStack的部署(three)--glance镜像_no project with a name or id of 'glance-cirros' ex
10
Vue + Element UI+Scss + Vuex一键换肤 , 一键换字体大小 ,动态替换全局主题颜色_【vue element ui scss vuex一键换肤 , 一键换字体大小 ,动态替换全局主题颜
当前位置:
article
> 正文
Hadoop入门学习笔记_hadoop 每台机器上安装都是一样的,只不过是启动的进程不一样?
作者:不正经 | 2024-02-14 12:12:49
赞
踩
hadoop 每台机器上安装都是一样的,只不过是启动的进程不一样?
Hadoop是一个Java语言编写的框架。
这个框架的功能:(1)分布式存储;(2)分布式计算。
分布式:这个数据分散在很多台不同的计算机中。
分布式存储:数据分散在很多的机器上进行存储。如百度云盘、360云盘等。最大特点:让用户感觉不到数据分散在多台数据中存储,好像是在一台机器上存储一样。(HDFS Hadoop distributed file system)。原因:物理磁盘不够用,只能放在多台机器中进行存储。
分布式计算:简单来说数据分散在很多的机器上进行计算。即一套程序在不同机器中,协同完成一件事情。好处:让多台机器同时运行,节省运行时间。
不是任何程序都可以用分布式计算的,只有程序可以分阶段执行的才可以,比如顺序结构的程序可以使用分布式计算,但是对于循环结构的程序就不可以用分布式计算。
Hadoop中分布式计算表现为 MapReduce。
最经典的是Apache(官方版本)的Hadoop,Cloudera是使用下载最多的版本,稳定有商业支持,在Apache的基础上打了一些patch。HortonWorks是基于Apache的版本进行了集成。
Apache Hadoop包含以下四个部分:
(1)通用部分: The comman utilities that support the other Hadoop modules,如序列化、RPC通信、工具类、包等。
(2)HDFS部分: A distributed file system that probides high-throughput access to application data,即前面介绍的分布式存储。
(3)YARN部分: A framework for job scheduling and cluster resource,它是一个资源管理平台。负责作业调度与集群的管理。
(4)MapReduce: A YARN-based system for parallel processing of large data sets.
分布式计算包含:YARN和MapReduce两个部分。
在Apache Hadoop上衍生的一些框架有:
(1)Ambar:Hadoop集群管理、监控平台;
(2)Avro:数据序列化系统;
(3)Cassandra:不存在单点问题的数据库;
(4)Chukwa:数据收集系统;
(5)HBase:支持大量结构化数据存储的数据库;
(6)Hive:支持数据汇总和即席查询的数据库;
(7)Mahout:机器学习和数据挖掘的library;
(8)Pig:高层次的数据流语言;
(9)Spark:快速的通用的计算引擎;
(10)Tez:通用的数据流编程框架;
(11)ZooKeeper:一款高性能的分布式服务提供协调服务的框架。
Hadoop的核心项目
(1)HDFS:分布式文件系统,如果没有存储数据,我们的计算是无意义的。处于最底层,用来提供数据。
(2)Yarn:资源管理平台,比如:多台计算机的CPU、网络带宽等资源的管理,在上面运行分布式计算,典型的计算模型有MapReduce、Storm、Spark等。
Apache Hadoop只提供了MapReduce,像Spark、Strom不属于Apache Hadoop的。
MapReduce、Spark、HDFS、Storm等都是分布式程序,这些分布式程序均具有主从式结构。
HDFS的架构:
(1)负责数据的分布式存储
(2)主从结构
主节点:可以有多个namenode
从节点:有很多datanode
(3)namenode负责:接收用户请求,是用户操作的入口;维护文件系统的目录结构,称作命名空间
(4)datanode负责:存储文件
Yarn的架构
(1)资源的调度和管理平台
(2)主从结构
主节点,只有一个:ResourceManager
从节点,有很多:NodeManager
(3)ResourceManager负责:
集群资源的分配与调度;
MapReduce、Storm、Spark等应用,必须实现ApplicationMaster接口,才能被RM管理。
(4)NodeManager负责
单节点资源的管理
MapReduce的架构
(1)依赖磁盘IO的批处理计算模型
(2)主从结构
主节点,只有一个:JobTracker
从节点,有很多:TaskTracker
(3)JobTracker负责
接收客户提交的计算任务;
把计算任务分配给TaskTrackers执行,即任务调度;
监控TaskTracker的执行情况。
(4)TaskTrackers负责
执行JobTracker分配的计算任务
它是分阶段执行的,即Map阶段和Reduce阶段。这两个阶段都被TaskTracker掌控。
Storm的架构
(1)实时的流式计算模型
(2)主从结构
主节点,只有一个:Nimbus
从节点,有很多:Supervisor
(3)Nimbus负责
接收客户提交的计算任务;
把计算任务分成Task,放置到zookeeper上,供supervisor使用;
监控Task的执行情况。
(4)Supervisor负责
从zookeeper中获取Task,执行Task。
Hadoop的特点:
(1)扩容能力(Scalable):能可靠地存储和处理千兆字节数据;
(2)成本低(Economical):可以通过普通机器组成的服务实现分发以及处理数据。这些服务器群总计可达数千个节点;
(3)高效率(Efficient):通过分发数据,Hadoop可以在数据所在的节点上并行处理它们,这使得处理非常快;
(4)可靠性(Reliable):hadoop能自动地维护数据的多份副本,并且在任务失败后能自动地重新部署计算任务。
Hadoop集群,Hadoop是部署在真正的服务器上的,服务器是放在机架上面的,每一个机架都有一个交换机,然后这些交换机通过一个大的交换机连接起来,用户是直接通过交换机来进行请求的。
安装在服务器上的代码都是一样的,只是在运行的时候会启动不同的JAVA进程,这个Java进程
就标明了这个节点是主节点还是从节点,主节点是单独占有一台机器,从节点是两种不同的进程放在一起。主节点专门做管理工作的,所以希望它能够独立。从节点一个是存储一个是计算,两者之间是有需求的,所以它们是放在一起的。
每台机器上的代码都是一样的,只是启动的进程是不一样的。
Hadoop的安装:
Hadoop是分主节点和从节点的,是在linux系统下进行运行的。均有java虚拟机。
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/不正经/article/detail/80282
推荐阅读
article
Hadoop
-
生产
调优...
1)NameNode 内存计算2)
Hadoop
2.x系列,配置 NameNode 内存NameNode 内存默认 200...
赞
踩
article
1.0
Hadoop
教程...
Hadoop
是一个开源的分布式计算和存储框架,由 Apache 基金会开发和维护。
Hadoop
为庞大的计算机集群提供...
赞
踩
article
3.0
Hadoop
概念
...
本章着重介绍
Hadoop
中的
概念
和组成部分,属于理论章节。如果你比较着急可以跳过。但作者不建议跳过,因为它与后面的章...
赞
踩
article
2.0
Hadoop
运行
环境
...
为了解决这些问题,我们有一个非常成熟的方式。Docker 是一个容器管理系统,它可以向虚拟机一样运行多个"虚拟机"(容器...
赞
踩
article
Hadoop YARN
Cgroups
资源隔离讲解_--mount-
cgr
oups,
hadoop
...
Hadoop YARN (Yet Another Resource Negotiator) 使用
Cgroups
(Con...
赞
踩
article
Hadoop
-
Hive
内部
表
/外部
表
分区
表
/分桶
表
区别_
hive
分区
表
和非
分区
表
的区别...
1)
hive
中内部
表
和外部
表
的区别内部
表
:又叫管理
表
,
表
的创建,和删除都由
hive
自己决定。外部
表
:
表
结构上同内部
表
,但...
赞
踩
article
【
Spark
+Hadoop+
Hive
+MySQL+Presto+
SpringBoot
+
Echarts
...
随着我国科学技术水平的不断发展,计算机网络技术的广泛应用,我国已经步入了大
数据
时代。在大
数据
背景下,各种繁杂的
数据
层出不...
赞
踩
article
Hadoop
学习笔记——入门教程(
虚拟机
安装
Linux
&
Hadoop
环境搭建配置)_
error
: c...
本文章使用VMware
虚拟机
平台搭载CentOS-7-x86_64-DVD-2009镜像文件进行
Hadoop
-3.1.3...
赞
踩
相关标签
hadoop
大数据
分布式
yarn
spark
hive
spring boot
linux