💡
原文英文,约700词,阅读约需3分钟。
📝
内容提要
Cloudflare因数据库权限更新导致全球性故障,出现5xx错误,影响用户访问。故障源于对ClickHouse数据库的例行改进,意外导致Bot管理系统崩溃。事件暴露了依赖单一供应商的风险,促使用户考虑多供应商策略。服务于14:30 UTC恢复,Cloudflare将审查其代理模块以防未来故障。
🎯
关键要点
- Cloudflare因数据库权限更新导致全球性故障,出现5xx错误。
- 故障始于11月18日11:20 UTC,影响用户访问和Cloudflare内部仪表板。
- 故障源于对ClickHouse数据库的例行改进,导致Bot管理系统崩溃。
- 更新导致元数据查询返回重复行,导致配置文件大小翻倍,超出内存安全限制。
- 故障诊断困难,系统状态不断波动,初步误认为是DDoS攻击。
- Cloudflare的外部状态页面也意外宕机,加剧了混乱。
- 此次故障是自2019年以来Cloudflare最严重的故障。
- 用户Dicky Wong指出,事件验证了多供应商策略的重要性。
- 用户在r/webdev subreddit上讨论了当前互联网的脆弱性,强调依赖单一供应商的风险。
- Cloudflare最终通过手动推送已知良好的配置文件恢复服务,流量在14:30 UTC恢复正常。
- Cloudflare将审查其代理模块的故障模式,以确保未来更好地处理内存预分配限制。
❓
延伸问答
Cloudflare的全球故障是如何发生的?
故障源于对ClickHouse数据库的权限更新,导致Bot管理系统崩溃,出现5xx错误。
这次故障对用户访问有什么影响?
故障导致用户无法访问网站,Cloudflare内部仪表板也被锁定。
Cloudflare是如何恢复服务的?
Cloudflare通过手动推送已知良好的配置文件恢复服务,流量在14:30 UTC恢复正常。
此次故障暴露了哪些风险?
事件暴露了依赖单一供应商的风险,促使用户考虑多供应商策略。
故障诊断过程中遇到了什么困难?
故障诊断困难,因为系统状态不断波动,初步误认为是DDoS攻击。
用户对此次故障有什么反应?
用户Dicky Wong指出事件验证了多供应商策略的重要性,强调了当前互联网的脆弱性。
🏷️
标签
➡️