理解全面故障的0.6秒检测时间
💡
原文英文,约700词,阅读约需3分钟。
📝
内容提要
这篇文章讨论了在SRE中使用SLOs的五种警报方法之一,即当目标错误率超过SLO阈值时触发警报。作者对书中提到的0.6秒的检测时间提出了质疑,并通过计算和公式推导解释了其来源。最后得出结论,对于100%的错误率,检测时间约为0.6秒。
🎯
关键要点
- 文章讨论了在SRE中使用SLOs的五种警报方法之一。
- 第一种方法是当目标错误率超过SLO阈值时触发警报。
- 作者质疑0.6秒的检测时间来源,并进行计算和公式推导。
- 对于100%的错误率,检测时间约为0.6秒。
- 假设警报实时评估,事件速率为每秒100个事件。
- 1%的错误率检测时间约为1分钟。
- 为了达到0.1%的错误率,需要在10分钟内失败60个事件。
- 检测时间公式为T = 所需失败事件数 / 失败率。
- 在100个事件每秒的情况下,检测时间为0.6秒。
➡️