💡
原文英文,约700词,阅读约需3分钟。
📝
内容提要
这本书分为三个部分:心态、工程和可靠性。心态部分通过实际例子建立了一种全面拥有的心态。工程部分讨论了提高架构和软件可靠性的技术。可靠性部分建立了关于可靠性的语言,并设定了服务级别指标、目标和协议。
🎯
关键要点
- 这本书分为三个部分:心态、工程和可靠性。
- 心态部分通过实际例子建立全面拥有的心态。
- 工程部分讨论提高架构和软件可靠性的技术。
- 可靠性部分建立关于可靠性的语言,并设定服务级别指标、目标和协议。
- 成熟度模型定义了服务级别的期望,并为逐步实现全面拥有奠定框架。
- 通过简单的工作坊格式识别可靠性感知并设定SLO。
- 建立关于风险的语言,以便理解书中的内容。
- 在讨论SLI和SLO之前,需要明确服务的定义。
- 服务级别工作坊用于识别风险、关键指标和合理目标。
- 服务级别文档用于在团队和利益相关者之间沟通期望。
- 服务级别是简化模型,用于将系统行为映射到用户行为。
- 讨论四种可用性指标及其使用时机。
- 延迟是另一种常见的服务级别指标。
- 成功率是常见的服务级别指标。
- 不同指标用于衡量数据和有状态服务的可靠性。
- 各种指标用于衡量AI模型的可靠性。
- 深入探讨SLI的定义及其示例。
- SLI可以是基于时间或事件的,需做出相应决策。
- SLI公式中的分母常被误解为“总数”。
- 定义SLI中的“好”的标准。
- 测量位置可能比实际测量值更重要。
- 深入探讨SLO及其常见误解。
- 每增加9个SLO,系统的可靠性提高10倍,但成本也增加10倍。
- 可以为同一指标设定多层次的SLO。
- 选择适合产品的合规期。
- 将SLO承诺转化为警报的必要性。
- 定义SLA并澄清其与SLO的区别。
- 探讨法律承诺和惩罚模型。
➡️