Cloudflare R2服务中断事件:密码轮换错误引发全球故障

💡 原文中文,约1300字,阅读约需4分钟。
📝

内容提要

Cloudflare的R2对象存储服务近日发生了1小时7分钟的中断,导致全球100%写入失败和35%读取失败。故障源于凭证轮换错误,旧凭证被删除后,生产服务失去认证。Cloudflare已改进凭证管理和验证流程,以防止类似事件再次发生。

🎯

关键要点

  • Cloudflare的R2对象存储服务发生了1小时7分钟的中断,导致全球100%写入失败和35%读取失败。
  • 故障源于凭证轮换错误,新凭证错误地部署到开发环境,导致生产服务失去认证。
  • 旧凭证删除后,生产服务失去有效凭证,问题未立即显现,修复工作延迟。
  • Cloudflare未能及时发现问题,未明确验证R2 Gateway服务使用的令牌。
  • 此次事件未导致客户数据丢失,但造成了服务降级,包括R2写入失败和读取失败。
  • Cloudflare已改进凭证日志记录和验证流程,强制使用自动化部署工具以避免人为错误。
  • 公司更新了标准操作流程,要求高影响操作进行双重验证,并计划增强健康检查。
  • Cloudflare的R2服务在今年2月也曾因人为错误发生过一次中断,导致服务关闭。
  • 为防止类似事件,Cloudflare计划改进账户配置、加强访问控制及实施双人审批流程。

延伸问答

Cloudflare R2服务中断的原因是什么?

中断是由于凭证轮换错误,新凭证错误地部署到开发环境,导致生产服务失去认证。

此次中断事件对Cloudflare的服务造成了什么影响?

导致全球100%写入失败和35%读取失败,部分服务降级。

Cloudflare为防止类似事件采取了哪些改进措施?

改进凭证日志记录和验证流程,强制使用自动化部署工具,并要求高影响操作进行双重验证。

这次事件是否导致客户数据丢失?

此次事件未导致客户数据丢失或损坏。

Cloudflare R2服务在今年是否曾发生过其他中断?

是的,今年2月也曾因人为错误发生过一次中断,导致服务关闭。

Cloudflare如何改进其凭证管理流程?

Cloudflare计划增强健康检查,改进账户配置和访问控制,实施双人审批流程。

➡️

继续阅读