搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
不正经
这个屌丝很懒,什么也没留下!
关注作者
热门标签
article
热门文章
1
vue3+vite+WebUploader文件上传_vue webuploader
2
2021-03-03_failed to parse lines 'ow
3
【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(5月26日论文合集)_anomaly detection with conditioned denoising diffu
4
框架安全-CVE 复现&Apache Shiro&Apache Solr漏洞复现_vulfocus solr 上传代码
5
java实现用户登录
6
人体姿态估计的过去,现在,未来
7
前端开发工具有哪些?17款前端工程师必备工具推荐!_前端用来跑代码的编软件有哪些
8
reac学习之路(一) 组件之间的传值_reac详细博客
9
[学习笔记]vue利用动态路由实现菜单权限管理_roles.some(role => route.meta.roles.includes(role)
10
Gerrit管理员手记(1): Gerrit Code Review使用指南
当前位置:
article
> 正文
Hadoop入门学习笔记_hadoop 每台机器上安装都是一样的,只不过是启动的进程不一样?
作者:不正经 | 2024-02-14 12:12:49
赞
踩
hadoop 每台机器上安装都是一样的,只不过是启动的进程不一样?
Hadoop是一个Java语言编写的框架。
这个框架的功能:(1)分布式存储;(2)分布式计算。
分布式:这个数据分散在很多台不同的计算机中。
分布式存储:数据分散在很多的机器上进行存储。如百度云盘、360云盘等。最大特点:让用户感觉不到数据分散在多台数据中存储,好像是在一台机器上存储一样。(HDFS Hadoop distributed file system)。原因:物理磁盘不够用,只能放在多台机器中进行存储。
分布式计算:简单来说数据分散在很多的机器上进行计算。即一套程序在不同机器中,协同完成一件事情。好处:让多台机器同时运行,节省运行时间。
不是任何程序都可以用分布式计算的,只有程序可以分阶段执行的才可以,比如顺序结构的程序可以使用分布式计算,但是对于循环结构的程序就不可以用分布式计算。
Hadoop中分布式计算表现为 MapReduce。
最经典的是Apache(官方版本)的Hadoop,Cloudera是使用下载最多的版本,稳定有商业支持,在Apache的基础上打了一些patch。HortonWorks是基于Apache的版本进行了集成。
Apache Hadoop包含以下四个部分:
(1)通用部分: The comman utilities that support the other Hadoop modules,如序列化、RPC通信、工具类、包等。
(2)HDFS部分: A distributed file system that probides high-throughput access to application data,即前面介绍的分布式存储。
(3)YARN部分: A framework for job scheduling and cluster resource,它是一个资源管理平台。负责作业调度与集群的管理。
(4)MapReduce: A YARN-based system for parallel processing of large data sets.
分布式计算包含:YARN和MapReduce两个部分。
在Apache Hadoop上衍生的一些框架有:
(1)Ambar:Hadoop集群管理、监控平台;
(2)Avro:数据序列化系统;
(3)Cassandra:不存在单点问题的数据库;
(4)Chukwa:数据收集系统;
(5)HBase:支持大量结构化数据存储的数据库;
(6)Hive:支持数据汇总和即席查询的数据库;
(7)Mahout:机器学习和数据挖掘的library;
(8)Pig:高层次的数据流语言;
(9)Spark:快速的通用的计算引擎;
(10)Tez:通用的数据流编程框架;
(11)ZooKeeper:一款高性能的分布式服务提供协调服务的框架。
Hadoop的核心项目
(1)HDFS:分布式文件系统,如果没有存储数据,我们的计算是无意义的。处于最底层,用来提供数据。
(2)Yarn:资源管理平台,比如:多台计算机的CPU、网络带宽等资源的管理,在上面运行分布式计算,典型的计算模型有MapReduce、Storm、Spark等。
Apache Hadoop只提供了MapReduce,像Spark、Strom不属于Apache Hadoop的。
MapReduce、Spark、HDFS、Storm等都是分布式程序,这些分布式程序均具有主从式结构。
HDFS的架构:
(1)负责数据的分布式存储
(2)主从结构
主节点:可以有多个namenode
从节点:有很多datanode
(3)namenode负责:接收用户请求,是用户操作的入口;维护文件系统的目录结构,称作命名空间
(4)datanode负责:存储文件
Yarn的架构
(1)资源的调度和管理平台
(2)主从结构
主节点,只有一个:ResourceManager
从节点,有很多:NodeManager
(3)ResourceManager负责:
集群资源的分配与调度;
MapReduce、Storm、Spark等应用,必须实现ApplicationMaster接口,才能被RM管理。
(4)NodeManager负责
单节点资源的管理
MapReduce的架构
(1)依赖磁盘IO的批处理计算模型
(2)主从结构
主节点,只有一个:JobTracker
从节点,有很多:TaskTracker
(3)JobTracker负责
接收客户提交的计算任务;
把计算任务分配给TaskTrackers执行,即任务调度;
监控TaskTracker的执行情况。
(4)TaskTrackers负责
执行JobTracker分配的计算任务
它是分阶段执行的,即Map阶段和Reduce阶段。这两个阶段都被TaskTracker掌控。
Storm的架构
(1)实时的流式计算模型
(2)主从结构
主节点,只有一个:Nimbus
从节点,有很多:Supervisor
(3)Nimbus负责
接收客户提交的计算任务;
把计算任务分成Task,放置到zookeeper上,供supervisor使用;
监控Task的执行情况。
(4)Supervisor负责
从zookeeper中获取Task,执行Task。
Hadoop的特点:
(1)扩容能力(Scalable):能可靠地存储和处理千兆字节数据;
(2)成本低(Economical):可以通过普通机器组成的服务实现分发以及处理数据。这些服务器群总计可达数千个节点;
(3)高效率(Efficient):通过分发数据,Hadoop可以在数据所在的节点上并行处理它们,这使得处理非常快;
(4)可靠性(Reliable):hadoop能自动地维护数据的多份副本,并且在任务失败后能自动地重新部署计算任务。
Hadoop集群,Hadoop是部署在真正的服务器上的,服务器是放在机架上面的,每一个机架都有一个交换机,然后这些交换机通过一个大的交换机连接起来,用户是直接通过交换机来进行请求的。
安装在服务器上的代码都是一样的,只是在运行的时候会启动不同的JAVA进程,这个Java进程
就标明了这个节点是主节点还是从节点,主节点是单独占有一台机器,从节点是两种不同的进程放在一起。主节点专门做管理工作的,所以希望它能够独立。从节点一个是存储一个是计算,两者之间是有需求的,所以它们是放在一起的。
每台机器上的代码都是一样的,只是启动的进程是不一样的。
Hadoop的安装:
Hadoop是分主节点和从节点的,是在linux系统下进行运行的。均有java虚拟机。
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/blog/article/detail/80282
推荐阅读
article
Hadoop
-
生产
调优
1)NameNode内存计算2)
Hadoop
2.x系列,配置NameNode内存NameNode内存默认2000m,如果内存服务器内存4G,NameNode内存可以配置3g。在hadoop-env.sh文件中配置如下3)
Hadoop
3.x系...
[详细]
赞
踩
article
1.0
Hadoop
教程
Hadoop
是一个开源的分布式计算和存储框架,由Apache基金会开发和维护。
Hadoop
为庞大的计算机集群提供可靠的、可伸缩的应用层计算和存储支持,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集,并且支持在单台计算机到几千台计算...
[详细]
赞
踩
article
3.0
Hadoop
概念
本章着重介绍
Hadoop
中的
概念
和组成部分,属于理论章节。如果你比较着急可以跳过。但作者不建议跳过,因为它与后面的章节息息相关。3.0
Hadoop
概念
本章着重介绍
Hadoop
中的
概念
和组成部分,属于理论章节。如果你比较着急可以跳过。但作者不...
[详细]
赞
踩
article
2.0
Hadoop
运行
环境
为了解决这些问题,我们有一个非常成熟的方式。Docker是一个容器管理系统,它可以向虚拟机一样运行多个"虚拟机"(容器),并构成一个集群。因为虚拟机会完整的虚拟出一个计算机来,所以会消耗大量的硬件资源且效率低下,而Docker仅提供一个独立...
[详细]
赞
踩
article
Hadoop YARN
Cgroups
资源隔离讲解_--mount-
cgr
oups,
hadoop
-
yarn
,
cpu
,
cpu
acct=/opt/
cgr
HadoopYARN(YetAnotherResourceNegotiator)使用
Cgroups
(ControlGroups)来进行资源管理和隔离。
Cgroups
是Linux内核提供的一种机制,用于限制、账户和隔离进程组(processg...
[详细]
赞
踩
article
Hadoop
-
Hive
内部
表
/外部
表
分区
表
/分桶
表
区别_
hive
分区
表
和非
分区
表
的区别
1)
hive
中内部
表
和外部
表
的区别内部
表
:又叫管理
表
,
表
的创建,和删除都由
hive
自己决定。外部
表
:
表
结构上同内部
表
,但是存储的数据时自己定义的,外部
表
在删除的时候只删除元数据,原始数据时不能删除的。内部
表
和外部
表
的区别主要体现在两个方面:...
[详细]
赞
踩
article
【
Spark
+Hadoop+
Hive
+MySQL+Presto+
SpringBoot
+
Echarts
】基于大
数据
技术的
用户
日志
数据
分析
及可视化平台搭建
项目
_
spark
用户
行为日志
数据
分析
项目
源码
随着我国科学技术水平的不断发展,计算机网络技术的广泛应用,我国已经步入了大
数据
时代。在大
数据
背景下,各种繁杂的
数据
层出不穷,一时难以掌握其基本特征及一般规律,这也给企业的运营
数据
分析
工作增添了不小的难度。在大
数据
的背景下,基于大
数据
前沿技术...
[详细]
赞
踩
article
Hadoop
学习笔记——入门教程(
虚拟机
安装
Linux
&
Hadoop
环境搭建配置)_
error
:
cannot
execute
/
data
/
data
sophon/
hadoop
-3.3.
本文章使用VMware
虚拟机
平台搭载CentOS-7-x86_64-DVD-2009镜像文件进行
Hadoop
-3.1.3环境搭建。_
error
:
cannot
execute
/
data
/
data
sophon/
hadoop
-3.3.3/bin/....
[详细]
赞
踩
相关标签
hadoop
大数据
分布式
yarn
spark
hive
spring boot
linux