Cloudflare API 服务中断事件分析:React useEffect 漏洞引发级联故障
💡
原文中文,约1100字,阅读约需3分钟。
📝
内容提要
Cloudflare发布事故报告,指出2025年9月12日因控制面板软件漏洞和服务更新导致API服务中断超过一小时。故障源于React代码缺陷,造成API请求循环,最终引发服务崩溃。尽管采取减压措施,服务恢复至19:12。此次中断未影响客户流量,后续将加强监控和资源配置。
🎯
关键要点
- Cloudflare发布事故报告,指出2025年9月12日因控制面板软件漏洞和服务更新导致API服务中断超过一小时。
- 故障源于控制面板新版本中的React代码缺陷,导致API请求循环,最终引发服务崩溃。
- 漏洞存在于useEffect钩子中,错误配置导致每次状态变更时触发API调用。
- 租户服务API正在进行更新部署,控制面板产生'惊群效应',使新部署的服务不堪重负。
- 故障导致UTC时间17:57起Cloudflare控制面板及大量API服务中断。
- 应急处置过程中,工程团队采取减压扩容措施,部分恢复API可用性,但控制面板仍宕机。
- 最终于19:12全面恢复服务,此次中断未影响客户流量。
- Cloudflare制定多项防范措施,包括迁移租户服务至Argo Rollouts和引入随机延迟机制。
❓
延伸问答
Cloudflare的API服务中断是因为什么原因?
API服务中断是由于控制面板软件漏洞和服务更新导致的,具体源于React代码缺陷。
此次中断对客户流量有影响吗?
此次中断未影响客户流量,终端用户服务始终保持在线。
Cloudflare采取了哪些应急措施来应对故障?
Cloudflare采取了减压扩容措施,包括实施全局速率限制和增加Kubernetes pods资源。
故障发生的具体时间是什么时候?
故障发生在2025年9月12日,UTC时间17:57起开始中断。
Cloudflare计划如何防止类似事件再次发生?
Cloudflare计划将租户服务迁移至Argo Rollouts,并引入随机延迟机制以缓解'惊群效应'。
故障的根本原因是什么?
故障的根本原因是控制面板新版本中的React代码缺陷,导致API请求循环。
➡️