InfoQ ·

AWS故障暴露关键云基础设施的脆弱性

💡 原文英文，约800词，阅读约需3分钟。

📝

内容提要

2025年10月20日，AWS发生重大故障，影响全球60多个国家的用户和企业。故障源于美国东部地区的DNS解析失败，导致DynamoDB端点无法访问，影响多个服务。事件提醒人们注意对单一云区域的依赖风险，AWS建议客户采用多区域架构以降低风险。

🎯

🔎

此次AWS故障突显了对单一云区域依赖的风险。许多企业在设计架构时可能忽视了多区域部署的重要性，导致在区域性故障发生时，服务中断的影响范围扩大。建议企业在云架构中考虑多区域冗余，以降低潜在的服务中断风险。

故障事件中，DNS解析失败是导致服务中断的关键因素之一。这提醒组织在设计系统时，需重视DNS的可靠性，考虑使用更具弹性的DNS策略，如自定义解析器和内部备份机制，以减少对单一DNS提供商的依赖。

此次事件显示，客户端的弹性设计同样至关重要。大量未协调的重试请求加剧了服务的负担，导致局部故障演变为广泛中断。实施指数退避、断路器等策略，可以有效减轻负载，提升系统在部分故障情况下的稳定性。

❓

故障的主要原因是DynamoDB的自动DNS管理系统中的潜在竞争条件，导致DNS解析失败。

此次故障影响了全球超过1700万用户和多个企业，涉及60多个国家。

AWS建议客户采用多区域架构，以降低对单一云区域的依赖风险。

系统应使用异步复制、本地或分布式缓存等方法，以确保在服务暂时中断时不影响整个应用。

大量未协调的重试请求导致服务过载，进一步加剧了故障的影响。

可以通过混沌工程实验来验证系统的弹性，发现潜在脆弱性。

🏷️