橙色代码:小故障 — 我们在近期事件后的韧性计划

橙色代码:小故障 — 我们在近期事件后的韧性计划

💡 原文英文,约2000词,阅读约需8分钟。
📝

内容提要

2025年11月18日和12月5日,Cloudflare发生重大故障,部分应用无法服务。为防止再次发生,Cloudflare启动“橙色代码:小故障”计划,改进配置变更控制和故障处理流程,增强网络韧性。

🎯

关键要点

  • 2025年11月18日和12月5日,Cloudflare发生重大故障,部分应用无法服务。

  • Cloudflare启动“橙色代码:小故障”计划,旨在增强网络韧性,防止再次发生故障。

  • 该计划包括三个主要领域:受控发布配置变更、改进和测试网络流量处理系统的故障模式、修改内部应急程序。

  • 故障的根本原因是配置变更的快速传播导致网络崩溃,需对配置变更采取与软件更新相同的谨慎态度。

  • Cloudflare将引入受控发布机制,确保配置更新经过测试后再进行全球部署。

  • 需要审查每个关键产品和服务之间的接口合同,以合理处理可能发生的故障。

  • 在故障发生时,解决问题的速度过慢,需改善应急程序和技术,消除循环依赖。

  • 到2025年第一季度末,Cloudflare将确保所有生产系统都覆盖健康管理部署(HMD),并更新系统以适应适当的故障模式。

  • Cloudflare承认在过去的事件中未能满足用户和互联网的期望,承诺将持续改进并分享进展。

延伸问答

Cloudflare最近发生了什么重大故障?

Cloudflare在2025年11月18日和12月5日经历了重大故障,导致部分应用无法服务。

什么是“橙色代码:小故障”计划?

“橙色代码:小故障”计划旨在增强Cloudflare的网络韧性,防止未来发生类似故障。

Cloudflare如何改进配置变更控制?

Cloudflare将引入受控发布机制,确保配置更新经过测试后再进行全球部署。

故障的根本原因是什么?

故障的根本原因是配置变更的快速传播导致网络崩溃,需要对配置变更采取与软件更新相同的谨慎态度。

Cloudflare计划如何提高应急响应速度?

Cloudflare将审查和改善内部应急程序,消除循环依赖,以便在事件发生时能够快速访问所需工具。

Cloudflare在未来的工作计划是什么?

到2025年第一季度末,Cloudflare将确保所有生产系统都覆盖健康管理部署,并更新系统以适应适当的故障模式。

➡️

继续阅读