快讯 | Cloudflare 2025年12月5日 故障复盘

快讯 | Cloudflare 2025年12月5日 故障复盘

💡 原文中文,约4200字,阅读约需10分钟。
📝

内容提要

2025年12月5日,Cloudflare因扩容WAF请求体缓冲区导致28%流量出现HTTP 500错误,故障持续25分钟,最终通过回滚配置恢复服务。事件暴露出发布流程的缺陷,需加强灰度策略和代码审查。

🎯

关键要点

  • 2025年12月5日,Cloudflare因扩容WAF请求体缓冲区导致28%流量出现HTTP 500错误,故障持续25分钟。
  • 故障源于禁用内部测试工具后触发的FL1代理规则模块的Lua代码漏洞。
  • 事件暴露出发布流程的缺陷,需加强灰度策略和代码审查。
  • 紧急发布未进行详尽的灰度和观察,导致系统不可用。
  • Cloudflare计划强化部署与版本管理,简化应急操作能力,实施故障开放错误处理机制。
  • 两次故障相隔时间太近,用户质疑之前的复盘改进措施是否有效。
  • Cloudflare将暂停所有网络变更,待相关防护与回滚系统完善后再恢复操作。

延伸问答

2025年12月5日Cloudflare故障的主要原因是什么?

故障主要由于扩容WAF请求体缓冲区时禁用内部测试工具,触发了FL1代理规则模块的Lua代码漏洞,导致28%的流量出现HTTP 500错误。

Cloudflare在此次故障中采取了哪些应对措施?

Cloudflare通过回滚配置在25分钟内恢复了服务,并计划强化部署与版本管理,简化应急操作能力。

此次故障对Cloudflare的客户影响有多大?

此次故障影响了约28%的HTTP流量,只有使用旧版FL1代理且部署了Cloudflare托管规则集的客户受到影响。

Cloudflare在故障复盘中发现了哪些流程缺陷?

故障暴露出发布流程的缺陷,特别是缺乏详尽的灰度策略和代码审查,导致紧急发布未能有效控制风险。

Cloudflare计划如何防止类似故障再次发生?

Cloudflare计划暂停所有网络变更,待相关防护与回滚系统完善后再恢复操作,并将实施故障开放错误处理机制。

此次故障与之前的故障有什么相似之处?

此次故障与11月18日的事件相似,均因安全相关变更在全网同步后导致大规模服务异常。

➡️

继续阅读