CloudFlare中断超过40个小时 机房夜班竟然只有1名上班1周的新人

💡 原文中文,约2900字,阅读约需7分钟。
📝

内容提要

CloudFlare遭遇40小时的停机,由于Flexential数据中心进行了意外的电力维护。尽管有冗余措施,但系统变得过于复杂,冗余措施无法正常工作。Flexential没有通知他们的客户,包括CloudFlare,电力问题。CloudFlare不得不限制请求速率,因为在故障转移过程中API调用失败。一些新产品没有完全测试灾难恢复,导致一些服务仍然不可用。整个服务于UTC时间11月4日04:25恢复。

🎯

关键要点

  • CloudFlare遭遇40小时停机,原因是Flexential数据中心的意外电力维护。
  • 故障时间为2023年11月2日11:44至11月4日04:25(UTC时间)。
  • 供电故障直接影响了CloudFlare的控制台和分析服务。
  • Flexential未通知CloudFlare电力问题,导致CloudFlare无法及时应对故障。
  • 备用发电机和UPS电源未能有效工作,导致数据中心彻底断电。
  • Flexential的门禁系统缺乏备用电源,影响了现场人员的进入。
  • CloudFlare在故障发生后主动联系Flexential,但初次通知延迟至12:28。
  • CloudFlare启用欧洲灾备站点以恢复服务,但部分新产品未经过充分测试。
  • 故障转移过程中API调用失败,CloudFlare限制请求速率。
  • 最终服务于11月4日04:25恢复,恢复过程耗时较长。
➡️

继续阅读