💡
原文中文,约4200字,阅读约需10分钟。
📝
内容提要
2025年12月5日,Cloudflare因扩容WAF请求体缓冲区导致28%流量出现HTTP 500错误,故障持续25分钟,最终通过回滚配置恢复服务。事件暴露出发布流程的缺陷,需加强灰度策略和代码审查。
🎯
关键要点
- 2025年12月5日,Cloudflare因扩容WAF请求体缓冲区导致28%流量出现HTTP 500错误,故障持续25分钟。
- 故障源于禁用内部测试工具后触发的FL1代理规则模块的Lua代码漏洞。
- 事件暴露出发布流程的缺陷,需加强灰度策略和代码审查。
- 紧急发布未进行详尽的灰度和观察,导致系统不可用。
- Cloudflare计划强化部署与版本管理,简化应急操作能力,实施故障开放错误处理机制。
- 两次故障相隔时间太近,用户质疑之前的复盘改进措施是否有效。
- Cloudflare将暂停所有网络变更,待相关防护与回滚系统完善后再恢复操作。
❓
延伸问答
2025年12月5日Cloudflare故障的主要原因是什么?
故障主要由于扩容WAF请求体缓冲区时禁用内部测试工具,触发了FL1代理规则模块的Lua代码漏洞,导致28%的流量出现HTTP 500错误。
Cloudflare在此次故障中采取了哪些应对措施?
Cloudflare通过回滚配置在25分钟内恢复了服务,并计划强化部署与版本管理,简化应急操作能力。
此次故障对Cloudflare的客户影响有多大?
此次故障影响了约28%的HTTP流量,只有使用旧版FL1代理且部署了Cloudflare托管规则集的客户受到影响。
Cloudflare在故障复盘中发现了哪些流程缺陷?
故障暴露出发布流程的缺陷,特别是缺乏详尽的灰度策略和代码审查,导致紧急发布未能有效控制风险。
Cloudflare计划如何防止类似故障再次发生?
Cloudflare计划暂停所有网络变更,待相关防护与回滚系统完善后再恢复操作,并将实施故障开放错误处理机制。
此次故障与之前的故障有什么相似之处?
此次故障与11月18日的事件相似,均因安全相关变更在全网同步后导致大规模服务异常。
🏷️
标签
➡️