从事件计数到服务级别指标:DigitalOcean如何重新思考可用性

从事件计数到服务级别指标:DigitalOcean如何重新思考可用性

💡 原文英文,约2300词,阅读约需9分钟。
📝

内容提要

本文讨论了DigitalOcean改进可用性测量的方法。通过将可用性分为控制平面和数据平面,并采用不同的服务级别指标(SLI),公司能够更准确地反映客户体验。新方法解决了旧指标的局限性,确保合理评估不同故障类型,并引入错误预算政策以指导工程优先级和产品开发。

🎯

关键要点

  • DigitalOcean在2025年初重新审视内部可用性数据,发现与客户体验不符。

  • 旧的可用性测量方法基于事件,未能准确反映客户的实际可用性。

  • 新方法将可用性分为控制平面和数据平面,采用不同的服务级别指标(SLI)。

  • 控制平面关注API调用和云控制面板操作,数据平面关注实际产品实例的可用性。

  • 通过加权请求平均法,确保不同数据中心的故障影响被合理反映。

  • 引入错误预算政策,指导工程优先级和产品开发,确保团队在不同情况下的决策。

  • 新框架适用于核心产品和新产品线,确保可用性测量反映客户真实体验。

延伸问答

DigitalOcean是如何改进可用性测量的?

DigitalOcean通过将可用性分为控制平面和数据平面,并采用不同的服务级别指标(SLI),来更准确地反映客户体验。

旧的可用性测量方法存在哪些局限性?

旧的方法基于事件计数,未能准确反映客户的实际可用性,且将所有事件视为完全故障,导致无法合理评估低严重性问题。

控制平面和数据平面的区别是什么?

控制平面关注API调用和云控制面板操作,而数据平面关注实际产品实例的可用性,二者采用不同的SLI方法。

DigitalOcean是如何处理不同数据中心的故障影响的?

DigitalOcean采用加权请求平均法,确保不同数据中心的故障影响被合理反映,避免小数据中心对整体可用性指标的过度影响。

什么是错误预算政策,它如何影响工程优先级?

错误预算政策是可用性目标的逆向指标,直接影响团队的决策和时间分配,确保在不同情况下的响应策略。

DigitalOcean的新可用性测量框架适用于哪些产品?

新框架适用于核心产品和新产品线,包括GPU Droplets和推理云产品,确保可用性测量反映客户真实体验。

➡️

继续阅读