The Cloudflare Blog

The Cloudflare Blog -

Autonomous hardware diagnostics and recovery at scale

Operating hardware in 310 cities in 120 countries means that hardware can break anywhere and anytime. Detecting and managing server failure at scale requires automation. Here's how we automated

Cloudflare开发了名为Phoenix的自主系统,用于处理服务器修复和恢复。Phoenix在没有人工干预的情况下对损坏的服务器进行诊断、修复和重新启用。系统定期运行,发现损坏的服务器,运行测试并确定恢复候选人。Phoenix是自动化感知的,确保恢复操作不会干扰其他正在进行的操作。系统通过详细的日志记录和进度更新提供透明度。Cloudflare还实施了错误预算概念来管理服务器故障的风险。Phoenix已被证明是高效的,减少能源浪费,使工程师能够专注于更有生产力的工作。

Cloudflare Phoenix 服务器修复 自动化 错误预算

相关推荐 去reddit讨论

热榜 Top10

LigaAI
LigaAI
eolink
eolink
Dify.AI
Dify.AI
观测云
观测云

推荐或自荐