Alex Ewerlöf Notes ·

系统可靠性思维

💡 原文英文，约800词，阅读约需3分钟。

📝

内容提要

本书是作者Alex在系统可靠性方面的经验总结，旨在帮助读者从零开始了解服务水平，并将其作为衡量和提高可靠性的工具。第一部分介绍了服务水平的概念，包括可靠性的感知、风险评估、可用性和延迟等内容。第二部分介绍了可靠的架构模式，包括系统可靠性计算、CDN后面的系统、部署模式和运行时回退等。第三部分讨论了技术领导力，包括真正的所有权、团队所有权、个人所有权和组织所有权等。

🎯

关键要点

作者Alex在系统可靠性方面有超过20年的经验，拥有系统工程硕士学位。
本书旨在帮助读者从零开始了解服务水平，并将其作为提高可靠性的工具。
第一部分介绍服务水平的概念，包括可靠性的感知、风险评估、可用性和延迟等。
服务水平研讨会用于识别风险、关键指标和合理目标。
可用性指标有四种类型，讨论何时使用哪种指标。
服务水平指标(SLI)分为基于时间和基于事件的SLI，强调测量位置的重要性。
服务水平目标(SLO)的合规期选择和警报机制的建立。
服务水平协议(SLA)与SLO的区别，以及合理的承诺水平。
第二部分介绍可靠的架构模式，包括系统可靠性计算、CDN后面的系统和部署模式。
讨论了运行时回退、故障转移和电路断路器等架构模式。
第三部分探讨技术领导力，包括真正的所有权、团队所有权和组织所有权。
书中使用洗衣机类比来讨论个人和团队的所有权利。
讨论技术债务的管理和架构决策的优化。
书籍预计在2024年发布，具体价格和购买信息尚未确定。

🏷️

系统可靠性思维

内容提要

关键要点

标签

继续阅读