锁定、饱和和CDN网络问题如何导致Canva宕机

锁定、饱和和CDN网络问题如何导致Canva宕机

💡 原文英文,约800词,阅读约需3分钟。
📝

内容提要

Canva工程团队总结了2024年11月12日的故障,指出API网关崩溃的原因,包括软件部署、锁定和Cloudflare网络问题,导致canva.com在UTC时间9:08至10:00不可用。团队通过临时阻止CDN流量逐步恢复服务,并计划改进应急响应流程以防类似事件。

🎯

关键要点

  • 2024年11月12日,Canva经历了严重的故障,导致canva.com在UTC时间9:08至10:00不可用。
  • 故障原因包括API网关集群失败、软件部署、锁定问题和Cloudflare网络问题。
  • CDN提供商的路由问题导致所有客户端同时下载新资产,造成超过270,000个请求同时待处理。
  • 故障并非由于新版本代码中的错误,而是由于客户端下载新版本时系统行为的变化。
  • 新对象面板在所有等待设备上同时加载,导致API网关每秒请求超过150万次,远超正常峰值负载。
  • 自动扩展未能跟上,API网关任务因内存耗尽而失败,最终导致完全崩溃。
  • Canva团队在9:29 AM UTC临时阻止CDN流量,允许新任务启动而不被请求淹没。
  • 工程师逐步恢复流量,约20分钟后完全恢复服务。
  • 事件响应者需要调整系统行为,以使其恢复到健康状态,这是韧性的经典例子。
  • 为了减少未来类似事件的可能性,团队专注于改进事件响应流程,包括流量阻止和恢复的运行手册,以及增强API网关的韧性。

延伸问答

Canva在2024年11月12日发生了什么故障?

Canva在2024年11月12日经历了严重的故障,导致canva.com在UTC时间9:08至10:00不可用。

导致Canva宕机的主要原因是什么?

故障主要由于API网关集群失败、软件部署、锁定问题和Cloudflare网络问题造成。

Canva是如何恢复服务的?

Canva团队在9:29 AM UTC临时阻止CDN流量,随后逐步恢复流量,约20分钟后完全恢复服务。

CDN路由问题对Canva的影响是什么?

CDN路由问题导致所有客户端同时下载新资产,造成超过270,000个请求同时待处理,导致API网关负载激增。

Canva团队计划如何防止类似事件再次发生?

团队计划改进事件响应流程,包括流量阻止和恢复的运行手册,以及增强API网关的韧性。

API网关崩溃的具体机制是什么?

API网关崩溃是由于请求过载和自动扩展未能跟上,导致内存耗尽和任务失败。

➡️

继续阅读