什么是 SRE?成为一名优秀的 SRE 需要具备什么能力?

💡 原文中文,约11800字,阅读约需28分钟。
📝

内容提要

SRE(Site Reliability Engineering)是Google提出的概念,旨在通过标准化、自动化和可扩展的方式解决运维难题。SRE的工作要求技能全面,以软件工程解决问题为方向,并具备强大的Trouble Shooting和思考能力。工作范畴包括可观测性系统、故障响应、测试与部署、容量规划、自动化工具开发、用户支持、Oncall和制定可交付的SLI/SLO/SLA等。故障复盘是SRE的重要环节,通过回顾和总结故障,以避免相同问题再次发生。

🎯

关键要点

  • SRE(站点可靠性工程)是Google提出的概念,旨在通过标准化、自动化和可扩展的方式解决运维难题。
  • SRE的工作要求技能全面,需具备软件工程解决问题的能力和强大的故障排查能力。
  • SRE的工作范畴包括可观测性系统、故障响应、测试与部署、容量规划、自动化工具开发、用户支持、Oncall和制定SLI/SLO/SLA等。
  • 故障复盘是SRE的重要环节,通过回顾和总结故障,以避免相同问题再次发生。
  • SRE的定位在不同公司可能有所不同,国内SRE通常以岗位来区分,如网络SRE、DBA SRE等。
  • SRE需要具备全面的技能,包括网络、操作系统、监控、CI/CD等,具备一定的研发能力。
  • SRE的工作需要打破传统运维思想壁垒,以产品角度思维贯穿业务架构。
  • 可观测性系统是SRE的基础,需关注指标监控、日志和调用链分析。
  • 故障响应需要建立在可观测性系统的数据基础上,包含关注、交流和恢复三个动作。
  • 测试与部署是为了确保新代码发布时基础架构和服务的稳定性,需在成本和风险之间找到平衡。
  • 容量规划是预测未来和发现系统极限,需管理风险和期望,依赖于海量的运维数据。
  • 自动化工具开发是SRE的重要组成部分,旨在提高效率和标准化操作。
  • 用户支持是SRE的最终目标,需从用户角度保证业务的稳定性和可用性。
  • Oncall是确保线上服务正常运行的工作流程,需及时响应告警并解决问题。
  • SLI、SLO和SLA是服务质量的关键指标,需明确服务的可用性和性能标准。
  • 故障复盘需建立无指责的文化,重视从故障中学习和改进系统。
➡️

继续阅读