赞
踩
主机监控 : 监控 Kafka 集群 Broker 所在的节点机器的性能
主机监控指标 :
top
load average 的过去 1 分钟、过去 5 分钟、过去 15 分钟的 Load 平均值:4.85、2.76、1.26
CPU 使用率 (%CPU) :
%CPU
= 102.3 , 平均每 CPU 的使用率 = 25%例子 : Broker 进程进行 Full GC 后,堆上存活的活跃对象大小是 700MB
JVM 进程指标监控:
2019-07-30T09:13:03.809+0800: 552.982: [GC cleanup 827M->645M(1024M), 0.0019078 secs]
Broker JVM 进程默认用 G1 的 GC 算法,当 cleanup 结束后,堆上活跃对象大小从 827MB 缩减成 645MB
-XX:+PrintAdaptiveSizePolicy
查看 Full GC 原因查看 Broker 进程是否启动,端口是否建立 :
查看 Broker 日志 :
查看 Broker 线程的运行状态 :
kafka-log-cleaner-thread
: Log Compaction
日志 Compaction : 一旦挂了,所有 Compaction 都会中断ReplicaFetcherThread
: 副本拉取消息的线程 (Follower 副本向 Leader 副本拉取消息) : 一旦挂了,对应的 Follower 副本不会从 Leader 副本拉取消息,Follower 副本的 Lag 会越来越大Broker JMX 指标 :
BytesIn
/ BytesOut
: Broker 每秒入站和出站字节数。保证不要接近网络带宽,网卡打满 : 容易出现丢包NetworkProcessorAvgIdlePercent
: 网络线程池线程平均的空闲比例。确保该值 > 30%。当 < 30% : 网络线程池繁忙,要增加网络线程数或 负载转移,减轻 Broker 负载RequestHandlerAvgIdlePercent
: I/O 线程池线程平均的空闲比例。该值 < 30%,要调整 I/O 线程池数,减轻 Broker 负载UnderReplicatedPartitions
:未充分备份的分区数。该分区可能有数据丢失ISRShrink
/ ISRExpand
:ISR 收缩和扩容的频次。当 ISR 中副本频繁进出,要判断副本频繁进出 ISR 的原因ActiveControllerCount
:激活状态的控制器数。正常 : Controller 所在 Broker 是 1,其他 Broker 是 0。当多台 Broker 是 1 :集群可能有脑裂 :排查网络连通性客户端与 Broker 的网络往返时延(Round-Trip Time,RTT)
生产者 :
kafka-producer-network-thread
:负责实际消息发送的线程 。它挂了,Producer 将无法正常工作,但 Producer 进程不会挂request-latency
: 消息生产请求的延时 : Producer 程序的 TPS消费者 :
kafka-coordinator-heartbeat-thread
: 心跳线程 , 关系到 Rebalancerecords-lag
, records-lead
: Consumer 消费进度join rate
, sync rate
: Rebalance 的频繁程度Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。