Kafka 监控_kafka查看tps

作者：2023面试高手 | 2024-05-01 07:49:37

踩

kafka查看tps

主机监控

主机监控 : 监控 Kafka 集群 Broker 所在的节点机器的性能

主机监控指标 :

top
1

load average 的过去 1 分钟、过去 5 分钟、过去 15 分钟的 Load 平均值：4.85、2.76、1.26

CPU 使用率 (%CPU) :

例子 : Broker 进程进行 Full GC 后，堆上存活的活跃对象大小是 700MB

JVM 进程指标监控：

2019-07-30T09:13:03.809+0800: 552.982: [GC cleanup 827M->645M(1024M), 0.0019078 secs]

Broker JVM 进程默认用 G1 的 GC 算法，当 cleanup 结束后，堆上活跃对象大小从 827MB 缩减成 645MB

查看 Broker 进程是否启动，端口是否建立：

查看 Broker 日志 :

查看 Broker 线程的运行状态 :

kafka-log-cleaner-thread : Log Compaction 日志 Compaction : 一旦挂了，所有 Compaction 都会中断
ReplicaFetcherThread : 副本拉取消息的线程 (Follower 副本向 Leader 副本拉取消息) : 一旦挂了，对应的 Follower 副本不会从 Leader 副本拉取消息，Follower 副本的 Lag 会越来越大

Broker JMX 指标 :

BytesIn / BytesOut : Broker 每秒入站和出站字节数。保证不要接近网络带宽，网卡打满 : 容易出现丢包
NetworkProcessorAvgIdlePercent : 网络线程池线程平均的空闲比例。确保该值 > 30%。当 < 30% : 网络线程池繁忙，要增加网络线程数或负载转移，减轻 Broker 负载
RequestHandlerAvgIdlePercent : I/O 线程池线程平均的空闲比例。该值 < 30%，要调整 I/O 线程池数，减轻 Broker 负载
UnderReplicatedPartitions：未充分备份的分区数。该分区可能有数据丢失
ISRShrink / ISRExpand：ISR 收缩和扩容的频次。当 ISR 中副本频繁进出，要判断副本频繁进出 ISR 的原因
ActiveControllerCount：激活状态的控制器数。正常 : Controller 所在 Broker 是 1，其他 Broker 是 0。当多台 Broker 是 1 ：集群可能有脑裂：排查网络连通性

客户端与 Broker 的网络往返时延（Round-Trip Time，RTT)

生产者 :

kafka-producer-network-thread ：负责实际消息发送的线程。它挂了，Producer 将无法正常工作，但 Producer 进程不会挂
request-latency: 消息生产请求的延时 : Producer 程序的 TPS

消费者 :

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/2023面试高手/article/detail/517765