Cloudflare 控制平面和分析服务中断事件后续报告

💡 原文英文,约3300词,阅读约需12分钟。
📝

内容提要

Cloudflare在俄勒冈州数据中心经历停机事件,导致部分客户日志丢失。Cloudflare承认未测试设施完全故障,正在进行更改以确保高可用性。实施Code Orange计划,要求所有产品和功能都有可靠的灾难恢复计划。

🎯

关键要点

  • Cloudflare在俄勒冈州的数据中心经历了停机事件,导致部分客户日志丢失。
  • 事件发生于2023年11月2日至11月4日,控制平面和分析服务受到影响。
  • Cloudflare承认未测试设施完全故障,部分关键系统存在非明显依赖关系。
  • 数据中心设计旨在提高可用性,但部分新产品未纳入高可用性集群。
  • Flexential数据中心的电力故障导致所有客户失去电力,Cloudflare未及时获知问题。
  • 恢复电力过程中,故障的电路断路器导致服务恢复延迟。
  • Cloudflare决定将部分服务切换到位于欧洲的灾难恢复站点。
  • 部分新产品未能在灾难恢复站点正常启动,团队同时进行恢复和迁移工作。
  • Cloudflare计划实施Code Orange,确保所有产品和功能都有可靠的灾难恢复计划。
  • 将移除对核心数据中心的依赖,确保控制平面在核心设施离线时仍能运行。
➡️

继续阅读