Canva事件报告:API网关故障

Canva事件报告:API网关故障

💡 原文英文,约2000词,阅读约需8分钟。
📝

内容提要

2024年11月12日,Canva因API网关故障导致canva.com在UTC时间9:08至10:00无法访问。故障源于软件部署、锁定问题及Cloudflare网络延迟。Canva已采取措施以稳定系统,防止类似事件再次发生。

🎯

关键要点

  • 2024年11月12日,Canva因API网关故障导致canva.com在UTC时间9:08至10:00无法访问。
  • 故障源于软件部署、锁定问题及Cloudflare网络延迟。
  • Canva已采取措施以稳定系统,防止类似事件再次发生。
  • Canva的编辑器是一个单页面应用,每天多次部署,涉及超过100个静态资源。
  • Cloudflare的网络延迟导致用户请求的JavaScript文件加载时间延长,影响了对象面板的显示。
  • 在故障期间,270,000个用户请求同时等待,导致API网关的请求量激增至每秒150万。
  • API网关的内存压力导致Linux内存杀手终止所有运行的容器,造成级联故障。
  • 在事件发生前,Canva的遥测库代码更改引入了性能回归,影响了API网关的吞吐量。
  • Canva采取了多项缓解措施,包括扩展API网关任务和在CDN层阻止流量。
  • 事件后,Canva计划改进事件响应流程和API网关的弹性,增加任务配置和负载测试。
  • Canva与Cloudflare密切合作,深入了解事件中的复杂系统交互。
  • Canva致力于透明度和持续改进,分享此次事件报告以供行业学习。

延伸问答

Canva的API网关故障发生在什么时候?

故障发生在2024年11月12日的UTC时间9:08至10:00。

导致Canva无法访问的主要原因是什么?

主要原因是软件部署、锁定问题以及Cloudflare的网络延迟。

Canva在故障后采取了哪些措施?

Canva采取了扩展API网关任务、在CDN层阻止流量等多项措施以稳定系统。

故障期间有多少用户请求受到影响?

在故障期间,超过270,000个用户请求同时等待,导致API网关的请求量激增至每秒150万。

Canva如何计划防止类似事件再次发生?

Canva计划改进事件响应流程、增加任务配置和负载测试,以提高API网关的弹性。

Cloudflare在此次事件中扮演了什么角色?

Cloudflare作为CDN提供商,因网络延迟问题影响了用户请求的处理,导致故障加剧。

➡️

继续阅读