安志合的学习博客 ·

什么是 SRE？成为一名优秀的 SRE 需要具备什么能力？

💡 原文中文，约11800字，阅读约需28分钟。

📝

内容提要

SRE（Site Reliability Engineering）是Google提出的概念，旨在通过标准化、自动化和可扩展的方式解决运维难题。SRE的工作要求技能全面，以软件工程解决问题为方向，并具备强大的Trouble Shooting和思考能力。工作范畴包括可观测性系统、故障响应、测试与部署、容量规划、自动化工具开发、用户支持、Oncall和制定可交付的SLI/SLO/SLA等。故障复盘是SRE的重要环节，通过回顾和总结故障，以避免相同问题再次发生。

🎯

关键要点

SRE（站点可靠性工程）是Google提出的概念，旨在通过标准化、自动化和可扩展的方式解决运维难题。
SRE的工作要求技能全面，需具备软件工程解决问题的能力和强大的故障排查能力。
SRE的工作范畴包括可观测性系统、故障响应、测试与部署、容量规划、自动化工具开发、用户支持、Oncall和制定SLI/SLO/SLA等。
故障复盘是SRE的重要环节，通过回顾和总结故障，以避免相同问题再次发生。
SRE的定位在不同公司可能有所不同，国内SRE通常以岗位来区分，如网络SRE、DBA SRE等。
SRE需要具备全面的技能，包括网络、操作系统、监控、CI/CD等，具备一定的研发能力。
SRE的工作需要打破传统运维思想壁垒，以产品角度思维贯穿业务架构。
可观测性系统是SRE的基础，需关注指标监控、日志和调用链分析。
故障响应需要建立在可观测性系统的数据基础上，包含关注、交流和恢复三个动作。
测试与部署是为了确保新代码发布时基础架构和服务的稳定性，需在成本和风险之间找到平衡。
容量规划是预测未来和发现系统极限，需管理风险和期望，依赖于海量的运维数据。
自动化工具开发是SRE的重要组成部分，旨在提高效率和标准化操作。
用户支持是SRE的最终目标，需从用户角度保证业务的稳定性和可用性。
Oncall是确保线上服务正常运行的工作流程，需及时响应告警并解决问题。
SLI、SLO和SLA是服务质量的关键指标，需明确服务的可用性和性能标准。
故障复盘需建立无指责的文化，重视从故障中学习和改进系统。

❓

延伸问答

SRE的主要职责是什么？

SRE的主要职责包括可观测性系统、故障响应、测试与部署、容量规划、自动化工具开发、用户支持、Oncall以及制定SLI/SLO/SLA等。

成为一名优秀的SRE需要哪些技能？

成为优秀的SRE需要具备全面的技能，包括网络、操作系统、监控、CI/CD等，并且需要一定的研发能力和强大的故障排查能力。

故障复盘在SRE工作中有什么重要性？

故障复盘是SRE的重要环节，通过回顾和总结故障，能够避免相同问题再次发生，促进系统的改进。

SRE如何进行容量规划？

容量规划是通过预测未来和发现系统极限，管理风险和期望，依赖于海量的运维数据来确保系统的可扩展性。

SRE的可观测性系统包括哪些方面？

可观测性系统包括指标监控、日志监控和调用链分析，确保能够洞察系统的健康状态和可用性。

SRE的Oncall工作流程是怎样的？

Oncall工作流程包括收到告警、检查告警原因、确认线上服务状态、定位问题和解决问题。

🏷️