Cloudflare API 服务中断事件分析:React useEffect 漏洞引发级联故障

💡 原文中文,约1100字,阅读约需3分钟。
📝

内容提要

Cloudflare发布事故报告,指出2025年9月12日因控制面板软件漏洞和服务更新导致API服务中断超过一小时。故障源于React代码缺陷,造成API请求循环,最终引发服务崩溃。尽管采取减压措施,服务恢复至19:12。此次中断未影响客户流量,后续将加强监控和资源配置。

🎯

关键要点

  • Cloudflare发布事故报告,指出2025年9月12日因控制面板软件漏洞和服务更新导致API服务中断超过一小时。
  • 故障源于控制面板新版本中的React代码缺陷,导致API请求循环,最终引发服务崩溃。
  • 漏洞存在于useEffect钩子中,错误配置导致每次状态变更时触发API调用。
  • 租户服务API正在进行更新部署,控制面板产生'惊群效应',使新部署的服务不堪重负。
  • 故障导致UTC时间17:57起Cloudflare控制面板及大量API服务中断。
  • 应急处置过程中,工程团队采取减压扩容措施,部分恢复API可用性,但控制面板仍宕机。
  • 最终于19:12全面恢复服务,此次中断未影响客户流量。
  • Cloudflare制定多项防范措施,包括迁移租户服务至Argo Rollouts和引入随机延迟机制。

延伸问答

Cloudflare的API服务中断是因为什么原因?

API服务中断是由于控制面板软件漏洞和服务更新导致的,具体源于React代码缺陷。

此次中断对客户流量有影响吗?

此次中断未影响客户流量,终端用户服务始终保持在线。

Cloudflare采取了哪些应急措施来应对故障?

Cloudflare采取了减压扩容措施,包括实施全局速率限制和增加Kubernetes pods资源。

故障发生的具体时间是什么时候?

故障发生在2025年9月12日,UTC时间17:57起开始中断。

Cloudflare计划如何防止类似事件再次发生?

Cloudflare计划将租户服务迁移至Argo Rollouts,并引入随机延迟机制以缓解'惊群效应'。

故障的根本原因是什么?

故障的根本原因是控制面板新版本中的React代码缺陷,导致API请求循环。

➡️

继续阅读