赞
踩
服务的稳定性,对于任何一个在线提供服务给用户的公司来说,都是非常重要的。任何一次线上事故,都可能会给公司带来显而易见的损失。因为相比于其他部门,负责基础技术、公共服务的同学,发生事故的时候很容易暴露在风口浪尖之中,一个小小的变更,都可能会使得多个业务部门服务不可用,因此服务的稳定性保障则显得更加重要。
参考阿里云的故障演练产品:
故障演练是一款遵循混沌工程实验原理并融合了阿里巴巴内部实践的产品,提供丰富故障场景,能够帮助分布式系统提升容错性和可恢复性。
故障演练建立了一套标准的演练流程,包含准备阶段、执行阶段、检查阶段和恢复阶段。通过四阶段的流程,覆盖用户从计划到还原的完整演练过程,并通过可视化的方式清晰的呈现给用户。
故障演练可适用于以下典型场景:
通过建立完善的监控告警机制,提前预知故障风险,减少故障持续时间
常见的监控有
站点监控
监控各云服务资源的监控指标,探测云服务ECS和运营商站点的可用性,并针对指定监控指标设置报警。使您全面了解阿里云上资源的使用情况和业务运行状况,并及时对故障资源进行处理,保证业务正常运行。
站点监控的典型应用场景如下:
拨测运营商探测点
从不同地域运营商网络的探测点发起HTTP、Ping、DNS或路由追踪的网络拨测,以便了解不同地域网络环境访问检测目标的情况。
事件监控汇集产品故障、运维事件以及用户业务异常事件,提供按产品、级别、名称、应用分组汇总统计事件,便于关联资源和复盘问题。
日志监控提供对日志数据实时分析、监控图表可视化展示和报警服务。常见的架构如下
自定义监控提供了自定义监控项和报警规则的功能,通过上报监控数据接口,将自己关心的业务指标上报至云监控,并在云监控上添加监控图表和设置报警规则,对于故障指标发送报警通知,便于及时处理故障,保障业务的正常运行。
活动通知邮件->运维及下游服务(配合压测及扩容)->运维评估确认->活动结束->运维评估确认(缩容)
P0故障 ● 定义:业务关键流程不可用 ○ 业务关键流程界定 ■ 会造成资损的:交易支付相关核心流程(如:下单流程,支付流程等) ■ 会造成客诉的:用户体验相关核心流程(如:用户高频访问功能点) ● 定级参考度量方向 ○ 故障时长 ○ 影响用户规模 ○ 客诉/资损数量 处理规范 原则 1. 恢复第一:快速恢复服务可用为主,定位根本原因彻底解决为次,最小化故障影响是第一目标 2. 情况通报:情况通报须贯穿整个处理全流程,故障情况应当定时向集团消防队和相关群组通报 3. 恢复确认:故障恢复需要在多个确认方交叉验证通过,且建议设置合适的过渡观察期确认 4. 复盘&改进:故障必须复盘并产出优化方案,方案须细化为可验收的Action并指派负责人
可参考下图
应用层面监控
系统层面监控包括
中间件层面监控包括数据库、缓存、消息队列。
参与人员
主持人:故障模块/系统的研发TL担任,主导整个复盘会的流程节奏
汇报人:故障处理人负责汇报整个故障过程
其他人员:故障模块/系统的研发、运维、稳定性人员
复盘时间
故障修复后的3个工作日内(尽量早,以便大家总结经验)
复盘会由主持人发起,具体时间由主持人协调确定
故障定级
参考定级标准确定故障级别
故障命名
故障日期
−
{故障日期}-
故障日期−{业务线}-
模块
/
系统
−
{模块/系统}-
模块/系统−{故障现象}
复盘流程
主持人简单介绍故障情况(问题模块、故障时长、影响范围等)
处理人汇报故障发生、反馈、处理、修复、验证整体过程情况
主持人&处理人分析故障产生具体原因并以此提出优化方案供与会人员共同讨论
根据优化方案,与会人员共同细化分解任务并确定落实人员(一个主导人)和时间
会后主持人依据故障报告模板产出故障报告并邮件抄送所有与会人员
故障报告模板
故障名称:
故障发生时间:
故障报告时间:
故障恢复时间:
故障持续时间:
故障影响范围:
故障等级:
故障处理人:
故障责任人:
故障描述:
故障处理过程:
故障原因分析:
改进方案(任务、落实人、落实时间):
除遵循通常的发布流程外,还应当对可能产生的故障做以下准备和检查:
checklist
先保证基础设施的完备——完善的监控告警机制,配合主动发现,减少应用服务的故障隐患,再建立稳定性规范,将可能发生的故障减到最少,故障时长降到最低。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。