SRE(Site Reliability Engineering)是Google提出的概念,旨在通过标准化、自动化和可扩展的方式解决运维难题。SRE的工作要求技能全面,以软件工程解决问题为方向,并具备强大的Trouble Shooting和思考能力。工作范畴包括可观测性系统、故障响应、测试与部署、容量规划、自动化工具开发、用户支持、Oncall和制定可交付的SLI/SLO/SLA等。故障复盘是SRE的重要环节,通过回顾和总结故障,以避免相同问题再次发生。
ONCALL是指在非工作时间保持待命解决服务稳定性问题的一种机制。建立ONCALL机制可以预防故障发生、提高可用性、减少损失和负面影响。搭建ONCALL团队、培训人员、建立流程和沉淀操作手册是做好ONCALL的关键。故障通知机制分为三个阶段,包括内部和外部通知。故障复盘是分析故障、改进流程和减少类似问题发生的重要实践。
完成下面两步后,将自动完成登录并继续当前操作。