锁定、饱和和CDN网络问题如何导致Canva宕机

锁定、饱和和CDN网络问题如何导致Canva宕机

💡 原文英文,约800词,阅读约需3分钟。
📝

内容提要

Canva工程团队总结了2024年11月12日的故障,指出API网关崩溃的原因,包括软件部署、锁定和Cloudflare网络问题,导致canva.com在UTC时间9:08至10:00不可用。团队通过临时阻止CDN流量逐步恢复服务,并计划改进应急响应流程以防类似事件。

🎯

关键要点

  • 2024年11月12日,Canva经历了严重的故障,导致canva.com在UTC时间9:08至10:00不可用。
  • 故障原因包括API网关集群失败、软件部署、锁定问题和Cloudflare网络问题。
  • CDN提供商的路由问题导致所有客户端同时下载新资产,造成超过270,000个请求同时待处理。
  • 故障并非由于新版本代码中的错误,而是由于客户端下载新版本时系统行为的变化。
  • 新对象面板在所有等待设备上同时加载,导致API网关每秒请求超过150万次,远超正常峰值负载。
  • 自动扩展未能跟上,API网关任务因内存耗尽而失败,最终导致完全崩溃。
  • Canva团队在9:29 AM UTC临时阻止CDN流量,允许新任务启动而不被请求淹没。
  • 工程师逐步恢复流量,约20分钟后完全恢复服务。
  • 事件响应者需要调整系统行为,以使其恢复到健康状态,这是韧性的经典例子。
  • 为了减少未来类似事件的可能性,团队专注于改进事件响应流程,包括流量阻止和恢复的运行手册,以及增强API网关的韧性。
➡️

继续阅读