当前位置:   article > 正文

RocketMQ 集群告警_集群主要告警

集群主要告警

前言

​对集群健康状况、使用主题、消费组资源的巡检,发现达到阈值则发送告警信息给管理员或者资源申请者。监控是告警的基础,告警的巡检基于前面两篇文章中监控采集到的数据。

​告警的重要性不必过多地赘述,RocketMQ 集群往往承载着公司核心业务流转。如果集群不可用往往影响是全公司的业务,事故责任是公司最高级别的。

本文从告警项的设计、告警流程、告警实战给出指导建议,在实践中以此为思路扩展完善,实现自己公司的定制化告警。

告警项设计

下图分别从主题、消费组、集群维度罗列了比较重要的告警项以及触发条件包括哪些方面。

触发条件
  • 触发阈值:超过某个特定的数值,例如:消费积压超过 10 万。
  • 时间间隔:间隔多久检测,例如:5 分钟内消费积压超过 10 万。
  • 触发次数:在时间间隔内满足阈值的次数,例如:5 分钟内消费积压超过 10 万,触发了 3 次。
  • 告警时间段:收到告警通知的时间范围,例如:在 9:00-22:00 之间收到告警信息。
主题告警

发送速度:当发送速度满足触发条件设定的阈值时发送告警信息。

例如:

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/603779
推荐阅读
相关标签
  

闽ICP备14008679号