技术ONCALL机制建设

💡 原文中文,约6700字,阅读约需16分钟。
📝

内容提要

ONCALL是指在非工作时间保持待命解决服务稳定性问题的一种机制。建立ONCALL机制可以预防故障发生、提高可用性、减少损失和负面影响。搭建ONCALL团队、培训人员、建立流程和沉淀操作手册是做好ONCALL的关键。故障通知机制分为三个阶段,包括内部和外部通知。故障复盘是分析故障、改进流程和减少类似问题发生的重要实践。

🎯

关键要点

  • ONCALL是指在非工作时间保持待命解决服务稳定性问题的机制。
  • 建立ONCALL机制可以预防故障、提高可用性、减少损失和负面影响。
  • 搭建ONCALL团队、培训人员、建立流程和沉淀操作手册是做好ONCALL的关键。
  • 故障通知机制分为三个阶段,包括内部和外部通知。
  • 故障复盘是分析故障、改进流程和减少类似问题发生的重要实践。
  • ONCALL的目的是预防故障、提高可用性、减少公司损失和降低负面影响。
  • 建立ONCALL制度需要管理层支持,形成公司ONCALL文化。
  • ONCALL团队需明确分工,搭建技术运营平台支撑监控告警机制。
  • 服务可用性有不同标准,金融类服务需达到5个9,互联网公司一般在99.95%到99.99%。
  • SLA、SLO、SLI是服务质量管理的不同层次,分别关注协议、目标和指标。
  • ONCALL团队需根据人员情况选择按天或按周值班,不建议按月值班。
  • ONCALL人员需具备技术能力、沟通能力、问题解决能力和压力管理能力。
  • ONCALL的常规任务包括告警事件处理和记录文档,紧急任务包括故障处理和协调通讯。
  • 故障通知机制分为三个阶段,及时安抚客户并降低公司商誉影响。
  • 故障复盘是分析故障原因和改进措施的重要实践,需在故障恢复后及时进行。
➡️

继续阅读