Cloudflare R2服务中断事件:密码轮换错误引发全球故障
💡
原文中文,约1300字,阅读约需4分钟。
📝
内容提要
Cloudflare的R2对象存储服务近日发生了1小时7分钟的中断,导致全球100%写入失败和35%读取失败。故障源于凭证轮换错误,旧凭证被删除后,生产服务失去认证。Cloudflare已改进凭证管理和验证流程,以防止类似事件再次发生。
🎯
关键要点
- Cloudflare的R2对象存储服务发生了1小时7分钟的中断,导致全球100%写入失败和35%读取失败。
- 故障源于凭证轮换错误,新凭证错误地部署到开发环境,导致生产服务失去认证。
- 旧凭证删除后,生产服务失去有效凭证,问题未立即显现,修复工作延迟。
- Cloudflare未能及时发现问题,未明确验证R2 Gateway服务使用的令牌。
- 此次事件未导致客户数据丢失,但造成了服务降级,包括R2写入失败和读取失败。
- Cloudflare已改进凭证日志记录和验证流程,强制使用自动化部署工具以避免人为错误。
- 公司更新了标准操作流程,要求高影响操作进行双重验证,并计划增强健康检查。
- Cloudflare的R2服务在今年2月也曾因人为错误发生过一次中断,导致服务关闭。
- 为防止类似事件,Cloudflare计划改进账户配置、加强访问控制及实施双人审批流程。
❓
延伸问答
Cloudflare R2服务中断的原因是什么?
中断是由于凭证轮换错误,新凭证错误地部署到开发环境,导致生产服务失去认证。
此次中断事件对Cloudflare的服务造成了什么影响?
导致全球100%写入失败和35%读取失败,部分服务降级。
Cloudflare为防止类似事件采取了哪些改进措施?
改进凭证日志记录和验证流程,强制使用自动化部署工具,并要求高影响操作进行双重验证。
这次事件是否导致客户数据丢失?
此次事件未导致客户数据丢失或损坏。
Cloudflare R2服务在今年是否曾发生过其他中断?
是的,今年2月也曾因人为错误发生过一次中断,导致服务关闭。
Cloudflare如何改进其凭证管理流程?
Cloudflare计划增强健康检查,改进账户配置和访问控制,实施双人审批流程。
🏷️
标签
➡️