搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
AllinToyou
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
【计算机毕业选题】400个计算机专业毕业设计选题推荐_计算机毕设选题推荐
2
PDFBox操作PDF文档之创建PDF文档、加载PDF文档、添加空白页面、删除页面、获取总页数、添加文本内容、PDFBox坐标系-支持Android
3
深入理解Java消息中间件-云原生和容器化对消息中间件的影响
4
RabbitMQ(3.8.5) 局域网访问失败_rabbitmq 局域网访问不了
5
注意力机制(二):Focus Your Attention: A Bidirectional Focal Attention Network for Image-Text Matching_focus your attention (with adaptive iir filters)
6
使用docker-compose 安装gitlab报错 sudo gitlab-ctl reconfigure_ulimit: pending signals: cannot modify limit: oper
7
绩效管理的本质是激发员工,而不是扣工资!
8
a论文写作免费网站推荐!ai论文写作免费网站有哪些
9
运行EVO问题汇总:AttributeError: module ‘numpy‘ has no attribute ‘typeDict‘_attributeerror: module 'numpy' has no attribute 't
10
【MongoDB远程连接配置】_单机版mongo url配置问价
当前位置:
article
> 正文
Hadoop全链路监控方案_hadoop生态链路追踪
作者:AllinToyou | 2024-05-11 22:23:07
赞
踩
hadoop生态链路追踪
作为一名大数据运维工程师,你手下管理着批量的集群机器,并且同时这个集群的规模还会不定时的扩大,机器一旦变多,发生问题的频率和类型就会变多,所以这时,你靠人肉去分析某台机器上的日志,OK,1台机器,2台机器,尚且可以解决办法,但是100台,1000台呢,当然如果工程师还这么做的话,我想他会抓狂的.所以如何做到智能化发现问题,定位问题,就显得很关键了,最理想的结果是,你拥有你的集群机器中每天跑的job的各种指标数据,然后你动动鼠标,通过展示出来的图形界面,就迅速的发现了问题。
任何分布式系统在不断演变的过程中,必然都会经过有小变到大的过程,中间也必定会由不稳定到逐步稳定的过程.在所有的这些系统能够稳定运行的一个前提是,完整的监控和报警系统.这个模块是系统保持稳定最最基础的模块服务.只有在这块功能完善的情况下,才会让系统的维护者更高效的定位到问题所在,减少不必要的时间消耗,才会有更多的时间去做其他方面的一些优化。
我们要监控哪些指标,首先你要了解Hadoop这一整套的系统逻辑,大致了解即可,那么我们应该怎么做呢?个人认为监控主要分为两个层面:宏观层面监控和微观层面监控。宏观层面就是Node级别,拓扑结构级别,DataNode、NameNode、JournalNode、ResourceManager、NodeManager,HMaster、RegionServer、Hiveserver2,这几个组件,通过分析这些节点上的监控数据,一般你能够定位到慢节点,可能某台机器的网络出问题了,或者说某台机器执行的时间总是大于正常机器等等这样类似的问题。微观层面,指细粒度化的监控,基于User级别、Job级别、Task级别的监控,这类的监控指标在实际的使用场景中特别重要,一旦你的集群资源是开放给外面的用户使用,用户本身不了解你的这套机制原理,很容易会乱申请资源,造成严重拖垮集群整体运作效率的事情,所以这类监控的指标就是为了防止这样的事情发生。
方案一:采用成熟监控组件Cloudera Manager
Cloudera Manager是CDH市场领先的管理平台。作为业界第一的端到端Apache Hadoop的管理应用,Cloudera Manager对CDH的每个部件都提供了细粒度的可视化和控制,并设置了企业部署的标准。通过Cloudera Manager运维人员得以提高集群的性能,提升服务质量,降低管理成本。
具备如下功能:
(1)管理:对集群进行管理,如添加、删除节点等操作。
(2)监控:监控集群的健康情况,对设置的各种指标和系统运行情况进行全面监控。
(3)诊断:对集群出现的问题进行诊断,对出现的问题给出建议解决方案。
(4)集成:对hadoop的多组件进行整合。
架构如下:
方案二:
采用成熟组件
Ambari
Ambari 跟 Hadoop 等开源软件一样,也是 Apache Software Foundation 中的一个项目,并且是顶级项目。目前最新的发布版本是 2.0.1,未来不久将发布 2.1 版本。就 Ambari 的作用来说,就是创建、管理、监视 Hadoop 的集群,但是这里的 Hadoop 是广义,指的是 Hadoop 整个生态圈(例如 Hive,Hbase,Sqoop,Zookeeper 等),而并不仅是特指 Hadoop。用一句话来说,Ambari 就是为了让 Hadoop 以及相关的大数据软件更容易使用的一个工具。
Ambari主要取得了以下成绩:
通过一步一步的安装向导简化了集群供应。
预先配置好关键的运维指标(metrics),可以直接查看Hadoop Core(HDFS和MapReduce)及相关项目(如HBase、Hive和HCatalog)是否健康。
支持作业与任务执行的可视化与分析,能够更好地查看依赖和性能。
通过一个完整的RESTful API把监控信息暴露出来,集成了现有的运维工具。
用户界面非常直观,用户可以轻松有效地查看信息并控制集群。
Ambari使用
Ganglia
收集度量指标,用
Nagios
支持系统报警,当需要引起管理员的关注时(比如,节点停机或磁盘剩余空间不足等问题),系统将向其发送邮件。
此外,Ambari能够安装安全的(基于Kerberos)Hadoop集群,以此实现了对Hadoop 安全的支持,提供了基于角色的用户认证、授权和审计功能,并为用户管理集成了LDAP和Active Directory。
架构如下:
方案三:Ganglia
Ganglia是UC Berkeley发起的一个开源集群监视项目,设计用于测量数以千计的节点。Ganglia的核心包含gmond、gmetad以及一个Web前端。主要是用来监控系统性能,如:cpu 、mem、硬盘利用率, I/O负载、网络流量情况等,通过曲线很容易见到每个节点的工作状态,对合理调整、分配系统资源,提高系统整体性能起到重要作用。
每台计算机都运行一个收集和发送度量数据的名为 gmond 的守护进程。接收所有度量数据的
主机
可以显示这些数据并且可以将这些数据的精简表单传递到层次结构中。正因为有这种层次结构模式,才使得 Ganglia 可以实现良好的扩展。gmond 带来的系统负载非常少,这使得它成为在
集群
中各台计算机上运行的一段代码,而不会影响用户性能。所有这些数据多次收集会影响节点性能。网络中的 “抖动”发生在大量小消息同时出现时,可以通过将节点时钟保持一致,来避免这个问题。
gmetad可以部署在集群内任一台节点或者通过网络连接到集群的独立主机,它通过
单播路由
的方式与gmond通信,收集区域内节点的状态信息,并以XML数据的形式,保存在数据库中。
由RRDTool工具处理数据,并生成相应的的图形显示,以Web方式直观的提供给客户端。
架构如下:
方案四:
自建运营平台Grafana+InfluxDB+Collectd+指标获取工具
架构如下:
其中:
Collected负责收集主机信息;
Influxdb时序数据库,作为数据存储。可以使用Mysql等关系数据库替换;
Grafana作为Web页面展示,通过简单配置即可快速实现页面展示,图像较丰富。
Hadoop指标工具需要开发,主要获取Yarn、Hbase、Datanode等监控指标;
优缺点:
方案一中CM可以和CDH版本完美融合,但未开源,有些功能需要收费,将来个性化监控项无法通过扩展实现;
方案二中Ambari是Hortonworks开源产品,完全开源,监控指标非常丰富,尤其是支持作业与任务的监控,个性化监控容易实现,但和CDH版本集成需要验证;
方案三中Ganglia开源产品,但缺少对作业任务的监控,不支持对Hadoop集群安装管理;
方案四完全自建平台,可根据实际需要定制功能,但产品成熟工作量难度较大;
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/AllinToyou/article/detail/556510
推荐阅读
article
hadoop
(伪
分布式
)上的
spark
和
Scala
安装
与
配置
详细版_
spark
搭建伪
分布式
平台包含h...
这里我使用是xshell进行的操作,需要的可以自行下载,这里就不多做解释了((4)进入
spark
/sbin 启动spar...
赞
踩
article
大
数据
毕业设计
PyFlink+
Hadoop
+
Hive
民宿
数据
分析
可视化
大屏
民宿
推荐
系统
民宿
爬虫 ...
大
数据
毕业设计
PyFlink+
Hadoop
+
Hive
民宿
数据
分析
可视化
大屏
民宿
推荐
系统
民宿
爬虫
民宿
大
数据
知识图谱...
赞
踩
article
hadoop
hbase
hive
spark
对应版本_
hadoop
3.3
spark
3.5...
hbase
和
hive
之间版本对应关系图片来源参考官网:http://
hbase
.apache.org/book.html...
赞
踩
article
hadoop
、
hbase
、
hive
、
zookeeper
版本对应关系...
hadoop
与HBase版本对应关系:Hbase Hadoop 0.92.0 1.0.00.92.1 1.0.00.9...
赞
踩
article
Hadoop
、
Hbase
、
Hive
和
zookeeper
版本兼容关系_
hadoop
zookeeper
...
Hadoop
和
Hbase
Hadoop
和
Hbase
的匹配关系可以查看
Hbase
官方文档,搜索‘
Hadoop
version...
赞
踩
article
Hadoop
/
Yarn
/
MapReduce
内存
分配
(配置)方案_
hadoop
map
内存
分配
...
以horntonworks给出推荐配置为蓝本,给出一种常见的
Hadoop
集群上各组件的内存
分配
方案。方案最右侧一栏是一个...
赞
踩
article
hadoop
2.2
.0集群
安装
_
java
hotspot
(tm) 64-bit
server
vm...
1. 网络设置禁用防火墙service iptables stop禁用IPv6打开/etc/modprobe.d/dis...
赞
踩
article
hive
执行
分区
修复语句(
MSCK
REPAIR
TABLE
)时报
FAILED
:
Execution
...
hive
执行
分区
修复语句(
MSCK
REPAIR
TABLE
)时报
FAILED
:
Execution
Error, re...
赞
踩
article
hadoop
配置
项的调优_
io
.
sort
.
factor
...
dfs.block.size决定HDFS文件block数量的多少(文件个数),它会间接的影响Job Tracker的调度...
赞
踩
article
hive
执行查询出现:
org
.
apache
.
hadoop
.
hive
.ql.
metadata
.
Hive
...
Diagnostic Messages for this Task:Error: java.lang.RuntimeEx...
赞
踩
article
HIVE ERROR总结_
at
org
.
apache
.
hadoop
.
hive
.
io
.
hive
io
ex...
第一 Caused by: java.lang.OutOfMemoryError: Java heap spaceDia...
赞
踩
article
hadoop
的
日志
详解_
namenode
hadoop
-
root
-
namenode
.
out.1
日...
本文部分资料转自本文部分资料转自本文部分资料转自。_
namenode
hadoop
-
root
-
namenode
.out...
赞
踩
article
访问
hadoop
web It
looks
like
you are
making
an HTTP ...
某日,访问
hadoop
web输入localhost:8088出现It
looks
like
you are makin...
赞
踩
article
hadoop
web界面管理错误_it
looks
like
you are
making
an h...
It
looks
like
you are
making
an HTTP
request
to a
hadoop
IPC...
赞
踩
article
It
looks
like
you are
making
an HTTP
request
to a ...
报错描述:It
looks
like
you are
making
an HTTP
request
to a Hadoo...
赞
踩
article
访问
Hadoop
2.7的namenode出现:It
looks
like
you are makin...
访问
Hadoop
2.7的namenode出现:It
looks
like
you are
making
an
HTTP
...
赞
踩
article
H
a
doop2.7报It
looks
like
you
a
re
m
a
king
a
n HTTP req...
2019独角兽企业重金招聘Python工程师标准>>> ..._it
looks
like
yo...
赞
踩
article
Linux安装
hadoop
_
pycharm
hadoop
linux
...
前提
hadoop
2.8.5wget下载
hadoop
,或如果是虚拟机,也可以使用sftp从windows上传
hadoop
文...
赞
踩
article
Hadoop
HA
高
可用
集群
详解_关于
hadoop
高
可用
集群
中
服务
的介绍...
文章目录一、
HA
概述二、HDFS-
HA
工作机制2.1 HDFS-
HA
工作要点2.2 HDFS-
HA
自动故障转移工作机制三...
赞
踩
article
Hadoop
伪
分布式
搭建
(超详细)_
hadoop
伪
分布式
localhost
...
Hadoop
伪
分布式
搭建
虚拟机准备阶段操作安全设置防火墙相关指令关闭关闭selinuxIP设置查看机器IP修改主机名修改...
赞
踩
相关标签
分布式
hadoop
spark
大数据
人工智能
python
hive
推荐算法
java
hbase
Hadoop
Yarn
MapReduce
内存分配
2.2.0
linux
集群
安装
内存
hdfs