💡
原文英文,约1500词,阅读约需6分钟。
📝
内容提要
在可靠性工程中,服务降级、服务中断和服务停运是三个相关但有时被错误使用的术语。可用性、服务降级和服务中断是区分这些差异的四个方面。服务降级是指核心功能仍可用,但服务质量较差;服务中断是指核心功能完全停止。影响范围是区分服务降级和中断的一个因素。服务降级对业务影响较小,而服务中断则有更严重的后果。
🎯
关键要点
-
在可靠性工程中,服务降级、服务中断和服务停运是三个相关但有时被错误使用的术语。
-
服务降级是指核心功能仍可用,但服务质量较差;服务中断是指核心功能完全停止。
-
可用性、服务降级和服务中断的区别可以通过四个方面来理解:可用性、服务水平、影响范围和后果。
-
服务降级时,核心功能仍然可用,但质量下降,例如ChatGPT早期的用户体验问题。
-
服务中断是指关键功能完全停止,例如2017年AWS S3的中断,导致所有请求失败。
-
服务水平指标(SLI)可以用来衡量可靠性,服务降级表现为错误预算的消耗,而服务中断则是错误预算的快速耗尽。
-
影响范围是区分服务降级和中断的一个因素,影响的用户数量和类型会影响后果的严重性。
-
服务降级通常对业务影响较小,而服务中断则可能导致严重后果,如声誉损失和法律后果。
-
服务停运通常指更严重的中断,可能导致销售、收入和用户的损失。
-
在某些情况下,服务的降级可能比中断对业务的负面影响更大,例如错误的价格显示可能导致更大的财务损失。
-
可靠性工程的目标是防止威胁变成降级,降级变成中断。
➡️