内容提要
2025年10月20日,AWS发生重大故障,影响全球60多个国家的用户和企业。故障源于美国东部地区的DNS解析失败,导致DynamoDB端点无法访问,影响多个服务。事件提醒人们注意对单一云区域的依赖风险,AWS建议客户采用多区域架构以降低风险。
关键要点
-
2025年10月20日,AWS发生重大故障,影响全球60多个国家的用户和企业。
-
故障源于美国东部地区的DNS解析失败,导致DynamoDB端点无法访问。
-
故障导致多个依赖服务出现中断,影响范围广泛,全球超过1700万用户报告故障。
-
故障的根本原因是DynamoDB的自动DNS管理系统中的潜在竞争条件。
-
AWS的内部子系统依赖DynamoDB,导致控制平面出现故障,形成恶性循环。
-
此次事件提醒人们注意对单一云区域的依赖风险。
-
AWS建议客户采用多区域架构,以降低类似风险。
-
客户应设计多区域故障转移,而不仅仅是多可用区高可用性。
-
系统设计应考虑弹性,使用异步复制、本地或分布式缓存等方法。
-
客户端的弹性也很重要,实施指数退避、断路器和请求削减可以减轻负载。
-
DNS被证明是另一个关键的薄弱点,组织应考虑更具弹性的DNS策略。
-
持续验证弹性是必要的,通过混沌工程实验发现潜在脆弱性。
-
制定清晰的事件响应计划,以应对DNS重建、内部操作限流和压力下的控制扩展。
延伸问答
AWS故障的主要原因是什么?
故障的主要原因是DynamoDB的自动DNS管理系统中的潜在竞争条件,导致DNS解析失败。
这次AWS故障影响了多少用户和企业?
此次故障影响了全球超过1700万用户和多个企业,涉及60多个国家。
AWS对客户的建议是什么?
AWS建议客户采用多区域架构,以降低对单一云区域的依赖风险。
如何设计系统以提高弹性?
系统应使用异步复制、本地或分布式缓存等方法,以确保在服务暂时中断时不影响整个应用。
故障期间,客户端的弹性如何影响服务?
大量未协调的重试请求导致服务过载,进一步加剧了故障的影响。
如何验证系统的弹性?
可以通过混沌工程实验来验证系统的弹性,发现潜在脆弱性。