内容提要
2025年11月18日和12月5日,Cloudflare发生重大故障,部分应用无法服务。为防止再次发生,Cloudflare启动“橙色代码:小故障”计划,改进配置变更控制和故障处理流程,增强网络韧性。
关键要点
-
2025年11月18日和12月5日,Cloudflare发生重大故障,部分应用无法服务。
-
Cloudflare启动“橙色代码:小故障”计划,旨在增强网络韧性,防止再次发生故障。
-
该计划包括三个主要领域:受控发布配置变更、改进和测试网络流量处理系统的故障模式、修改内部应急程序。
-
故障的根本原因是配置变更的快速传播导致网络崩溃,需对配置变更采取与软件更新相同的谨慎态度。
-
Cloudflare将引入受控发布机制,确保配置更新经过测试后再进行全球部署。
-
需要审查每个关键产品和服务之间的接口合同,以合理处理可能发生的故障。
-
在故障发生时,解决问题的速度过慢,需改善应急程序和技术,消除循环依赖。
-
到2025年第一季度末,Cloudflare将确保所有生产系统都覆盖健康管理部署(HMD),并更新系统以适应适当的故障模式。
-
Cloudflare承认在过去的事件中未能满足用户和互联网的期望,承诺将持续改进并分享进展。
延伸问答
Cloudflare最近发生了什么重大故障?
Cloudflare在2025年11月18日和12月5日经历了重大故障,导致部分应用无法服务。
什么是“橙色代码:小故障”计划?
“橙色代码:小故障”计划旨在增强Cloudflare的网络韧性,防止未来发生类似故障。
Cloudflare如何改进配置变更控制?
Cloudflare将引入受控发布机制,确保配置更新经过测试后再进行全球部署。
故障的根本原因是什么?
故障的根本原因是配置变更的快速传播导致网络崩溃,需要对配置变更采取与软件更新相同的谨慎态度。
Cloudflare计划如何提高应急响应速度?
Cloudflare将审查和改善内部应急程序,消除循环依赖,以便在事件发生时能够快速访问所需工具。
Cloudflare在未来的工作计划是什么?
到2025年第一季度末,Cloudflare将确保所有生产系统都覆盖健康管理部署,并更新系统以适应适当的故障模式。