2023年10月30日Cloudflare故障事件

💡 原文英文,约1700词,阅读约需7分钟。
📝

内容提要

2023年10月30日,Cloudflare因Workers KV部署工具的错误配置而经历了37分钟的停机。该事件影响了多个依赖于Workers KV的Cloudflare服务,导致错误率升高和无法访问某些或所有功能。通过手动切换到之前工作版本的Workers KV,该事件得以解决。Cloudflare计划改进其部署工具和关键依赖项的产品级控制,以防止此类事件再次发生。

🎯

关键要点

  • 2023年10月30日,Cloudflare因Workers KV部署工具的错误配置经历了37分钟的停机。
  • 该事件导致多个依赖于Workers KV的Cloudflare服务出现错误率升高和无法访问的情况。
  • Workers KV是Cloudflare的全球分布式键值存储,用于管理配置数据、路由查找、静态资产等。
  • 在事件中,KV错误地返回了HTTP 401(未授权)状态码,导致服务无法正常获取键值对。
  • 受影响的Cloudflare产品包括Workers KV、Pages、Access、WARP/Zero Trust、Images等。
  • 事件发生后,Cloudflare工程师通过手动切换到之前的工作版本解决了问题。
  • 事件的根本原因是部署工具中的潜在错误,导致生产环境指向了错误的版本。
  • Cloudflare计划改进其部署工具和关键依赖项的产品级控制,以防止类似事件再次发生。
  • 后续措施包括标准化KV部署模型、确保回滚过程的有效性、增加部署前检查等。
➡️

继续阅读