小红花·文摘

平台工程与站点可靠性工程（SRE）

DEV Community ·

了解和利用关键的可靠性指标是事故管理和站点可靠性工程（SRE）团队的必备技能。本文介绍了四个关键指标：平均修复时间（MTTR），平均故障间隔时间（MTBF），平均检测时间（MTTD）和平均故障时间（MTTF）。通过掌握这些指标的细微差别，事故管理和SRE团队可以做出明智决策，提高系统可靠性，减少停机时间。

系统可靠性指标：MTTR、MTBF、MTTD 和 MTTF 的比较指南

DEV Community ·

下个月慕尼黑将举办首届欧洲InfoQ Dev Summit

InfoQ ·

谷歌站点可靠性工程的11个经验教训，包括故障削减措施与故障严重程度成比例、全面测试恢复机制、金丝雀变更、备份通信通道、故障弹性测试等。这些教训通过谷歌在不同故障中的经验总结而来，对提高系统可靠性和稳定性至关重要。

从谷歌 20 年的站点可靠性工程（SRE）中学到的 11 个经验教训

程序师 ·