Cloudflare 控制平面和分析服务中断事件后续报告
💡
原文英文,约3300词,阅读约需12分钟。
📝
内容提要
Cloudflare在俄勒冈州数据中心经历停机事件,导致部分客户日志丢失。Cloudflare承认未测试设施完全故障,正在进行更改以确保高可用性。实施Code Orange计划,要求所有产品和功能都有可靠的灾难恢复计划。
🎯
关键要点
- Cloudflare在俄勒冈州的数据中心经历了停机事件,导致部分客户日志丢失。
- 事件发生于2023年11月2日至11月4日,控制平面和分析服务受到影响。
- Cloudflare承认未测试设施完全故障,部分关键系统存在非明显依赖关系。
- 数据中心设计旨在提高可用性,但部分新产品未纳入高可用性集群。
- Flexential数据中心的电力故障导致所有客户失去电力,Cloudflare未及时获知问题。
- 恢复电力过程中,故障的电路断路器导致服务恢复延迟。
- Cloudflare决定将部分服务切换到位于欧洲的灾难恢复站点。
- 部分新产品未能在灾难恢复站点正常启动,团队同时进行恢复和迁移工作。
- Cloudflare计划实施Code Orange,确保所有产品和功能都有可靠的灾难恢复计划。
- 将移除对核心数据中心的依赖,确保控制平面在核心设施离线时仍能运行。
🏷️
标签
➡️