💡
原文英文,约800词,阅读约需3分钟。
📝
内容提要
Canva工程团队总结了2024年11月12日的故障,指出API网关崩溃的原因,包括软件部署、锁定和Cloudflare网络问题,导致canva.com在UTC时间9:08至10:00不可用。团队通过临时阻止CDN流量逐步恢复服务,并计划改进应急响应流程以防类似事件。
🎯
关键要点
- 2024年11月12日,Canva经历了严重的故障,导致canva.com在UTC时间9:08至10:00不可用。
- 故障原因包括API网关集群失败、软件部署、锁定问题和Cloudflare网络问题。
- CDN提供商的路由问题导致所有客户端同时下载新资产,造成超过270,000个请求同时待处理。
- 故障并非由于新版本代码中的错误,而是由于客户端下载新版本时系统行为的变化。
- 新对象面板在所有等待设备上同时加载,导致API网关每秒请求超过150万次,远超正常峰值负载。
- 自动扩展未能跟上,API网关任务因内存耗尽而失败,最终导致完全崩溃。
- Canva团队在9:29 AM UTC临时阻止CDN流量,允许新任务启动而不被请求淹没。
- 工程师逐步恢复流量,约20分钟后完全恢复服务。
- 事件响应者需要调整系统行为,以使其恢复到健康状态,这是韧性的经典例子。
- 为了减少未来类似事件的可能性,团队专注于改进事件响应流程,包括流量阻止和恢复的运行手册,以及增强API网关的韧性。
➡️