💡
原文英文,约700词,阅读约需3分钟。
📝
内容提要
这本书分为三个部分:心态、工程和可靠性。心态部分通过实际例子建立了一种全面拥有的心态。工程部分讨论了提高架构和软件可靠性的技术。可靠性部分建立了关于可靠性的语言,并设定了服务级别指标、目标和协议。
🎯
关键要点
-
这本书分为三个部分:心态、工程和可靠性。
-
心态部分通过实际例子建立全面拥有的心态。
-
工程部分讨论提高架构和软件可靠性的技术。
-
可靠性部分建立关于可靠性的语言,并设定服务级别指标、目标和协议。
-
成熟度模型定义了服务级别的期望,并为逐步实现全面拥有奠定框架。
-
通过简单的工作坊格式识别可靠性感知并设定SLO。
-
建立关于风险的语言,以便理解书中的内容。
-
在讨论SLI和SLO之前,需要明确服务的定义。
-
服务级别工作坊用于识别风险、关键指标和合理目标。
-
服务级别文档用于在团队和利益相关者之间沟通期望。
-
服务级别是简化模型,用于将系统行为映射到用户行为。
-
讨论四种可用性指标及其使用时机。
-
延迟是另一种常见的服务级别指标。
-
成功率是常见的服务级别指标。
-
不同指标用于衡量数据和有状态服务的可靠性。
-
各种指标用于衡量AI模型的可靠性。
-
深入探讨SLI的定义及其示例。
-
SLI可以是基于时间或事件的,需做出相应决策。
-
SLI公式中的分母常被误解为“总数”。
-
定义SLI中的“好”的标准。
-
测量位置可能比实际测量值更重要。
-
深入探讨SLO及其常见误解。
-
每增加9个SLO,系统的可靠性提高10倍,但成本也增加10倍。
-
可以为同一指标设定多层次的SLO。
-
选择适合产品的合规期。
-
将SLO承诺转化为警报的必要性。
-
定义SLA并澄清其与SLO的区别。
-
探讨法律承诺和惩罚模型。
➡️