InfoQ ·

Cloudflare全球故障源于内部数据库变更

💡 原文英文，约700词，阅读约需3分钟。

📝

内容提要

Cloudflare因数据库权限更新导致全球性故障，出现5xx错误，影响用户访问。故障源于对ClickHouse数据库的例行改进，意外导致Bot管理系统崩溃。事件暴露了依赖单一供应商的风险，促使用户考虑多供应商策略。服务于14:30 UTC恢复，Cloudflare将审查其代理模块以防未来故障。

🎯

关键要点

Cloudflare因数据库权限更新导致全球性故障，出现5xx错误。
故障始于11月18日11:20 UTC，影响用户访问和Cloudflare内部仪表板。
故障源于对ClickHouse数据库的例行改进，导致Bot管理系统崩溃。
更新导致元数据查询返回重复行，导致配置文件大小翻倍，超出内存安全限制。
故障诊断困难，系统状态不断波动，初步误认为是DDoS攻击。
Cloudflare的外部状态页面也意外宕机，加剧了混乱。
此次故障是自2019年以来Cloudflare最严重的故障。
用户Dicky Wong指出，事件验证了多供应商策略的重要性。
用户在r/webdev subreddit上讨论了当前互联网的脆弱性，强调依赖单一供应商的风险。
Cloudflare最终通过手动推送已知良好的配置文件恢复服务，流量在14:30 UTC恢复正常。
Cloudflare将审查其代理模块的故障模式，以确保未来更好地处理内存预分配限制。

❓

延伸问答

Cloudflare的全球故障是如何发生的？

故障源于对ClickHouse数据库的权限更新，导致Bot管理系统崩溃，出现5xx错误。

这次故障对用户访问有什么影响？

故障导致用户无法访问网站，Cloudflare内部仪表板也被锁定。

Cloudflare是如何恢复服务的？

Cloudflare通过手动推送已知良好的配置文件恢复服务，流量在14:30 UTC恢复正常。

此次故障暴露了哪些风险？

事件暴露了依赖单一供应商的风险，促使用户考虑多供应商策略。

故障诊断过程中遇到了什么困难？

故障诊断困难，因为系统状态不断波动，初步误认为是DDoS攻击。

用户对此次故障有什么反应？

用户Dicky Wong指出事件验证了多供应商策略的重要性，强调了当前互联网的脆弱性。

🏷️

继续阅读

Cloudflare IPsec的后量子加密现已普遍可用
Cloudflare宣布其IPsec服务现已支持后量子加密，旨在抵御“先收集后解密”的攻击。该技术采用混合ML-KEM算法，确保与Cisco和Fortin...
代理现在可以创建Cloudflare账户、购买域名并部署应用
代理现在可以代表用户创建Cloudflare账户、购买域名并部署应用，整个过程无需人工干预。通过与Stripe合作的新协议，代理能够快速完成这些任务，简化...
乌迈尔·沙希德：最佳PostgreSQL数据库故意选择无趣
文章讨论了PostgreSQL数据库的稳定部署的重要性。稳定意味着高效，减少故障和紧急修复。通过定期检查、调整参数和备份演练，团队可以提高客户信任，节省时...
重塑中国豪华汽车全球旗舰标杆，魏牌V9X重磅登陆北京车展
在2026北京国际汽车展上，魏牌发布了豪华旗舰SUV魏牌V9X，计划进军欧亚和中东市场。凭借自研能力，魏牌在高端市场取得显著成果，全球用户超过70万。V9...
Cloudflare Announces Agent Memory, a Managed Persistent Memory Service for AI Agents
Cloudflare announced Agent Memory in private beta, a managed service that ext...
海信RGB MiniLED显示屏亮相《穿普拉达的女王2》全球首映礼
海信与二十世纪影业合作，在《穿普拉达的女王2》全球首映礼上展示了其RGB MiniLED显示技术，该技术提升了色彩还原度和亮度，满足高端场景需求，强调了新...