什么是 SRE?成为一名优秀的 SRE 需要具备什么能力?
💡
原文中文,约11800字,阅读约需28分钟。
📝
内容提要
SRE(Site Reliability Engineering)是Google提出的概念,旨在通过标准化、自动化和可扩展的方式解决运维难题。SRE的工作要求技能全面,以软件工程解决问题为方向,并具备强大的Trouble Shooting和思考能力。工作范畴包括可观测性系统、故障响应、测试与部署、容量规划、自动化工具开发、用户支持、Oncall和制定可交付的SLI/SLO/SLA等。故障复盘是SRE的重要环节,通过回顾和总结故障,以避免相同问题再次发生。
🎯
关键要点
- SRE(站点可靠性工程)是Google提出的概念,旨在通过标准化、自动化和可扩展的方式解决运维难题。
- SRE的工作要求技能全面,需具备软件工程解决问题的能力和强大的故障排查能力。
- SRE的工作范畴包括可观测性系统、故障响应、测试与部署、容量规划、自动化工具开发、用户支持、Oncall和制定SLI/SLO/SLA等。
- 故障复盘是SRE的重要环节,通过回顾和总结故障,以避免相同问题再次发生。
- SRE的定位在不同公司可能有所不同,国内SRE通常以岗位来区分,如网络SRE、DBA SRE等。
- SRE需要具备全面的技能,包括网络、操作系统、监控、CI/CD等,具备一定的研发能力。
- SRE的工作需要打破传统运维思想壁垒,以产品角度思维贯穿业务架构。
- 可观测性系统是SRE的基础,需关注指标监控、日志和调用链分析。
- 故障响应需要建立在可观测性系统的数据基础上,包含关注、交流和恢复三个动作。
- 测试与部署是为了确保新代码发布时基础架构和服务的稳定性,需在成本和风险之间找到平衡。
- 容量规划是预测未来和发现系统极限,需管理风险和期望,依赖于海量的运维数据。
- 自动化工具开发是SRE的重要组成部分,旨在提高效率和标准化操作。
- 用户支持是SRE的最终目标,需从用户角度保证业务的稳定性和可用性。
- Oncall是确保线上服务正常运行的工作流程,需及时响应告警并解决问题。
- SLI、SLO和SLA是服务质量的关键指标,需明确服务的可用性和性能标准。
- 故障复盘需建立无指责的文化,重视从故障中学习和改进系统。
➡️