程序师 ·

2025年10月19日亚马逊 us-east-1 宕机事故反思

💡 原文中文，约6100字，阅读约需15分钟。

📝

内容提要

2025年10月19日，AWS us-east-1区域发生严重宕机，持续14小时，影响140项服务，造成巨额损失。故障源于DynamoDB的DNS管理系统中的竞争条件，突显了云计算系统的复杂性及设计与运维的重要性。

🎯

🔎

此次AWS宕机事件突显了云计算系统设计的复杂性。DynamoDB的DNS管理中存在的竞争条件，导致了服务的连锁崩溃，提醒我们在设计系统时必须充分考虑潜在的竞态条件和延迟问题。

DynamoDB和EC2作为AWS架构中的基础服务，其故障直接导致了140项服务的瘫痪。这一事件强调了在云服务架构中，服务之间的依赖关系需要被仔细管理，以避免单点故障引发大规模影响。

此次事件中，DynamoDB的故障未能被自动恢复，导致服务长时间不可用。这表明在设计云服务时，必须建立更为健全的故障恢复机制，以确保在发生故障时能够迅速恢复服务。

❓

AWS us-east-1区域发生了严重的宕机事故，持续14小时，影响了140项服务，造成巨额损失。

宕机的主要原因是DynamoDB的DNS管理系统中存在竞争条件，导致DNS记录错误清空。

DynamoDB和EC2是AWS架构中的基础服务，一旦它们瘫痪，其他服务也会受到影响。

此次事件被认为是AWS十年来的最大失误，但AWS的可靠性仍然处于行业领先地位。

NLB服务中断是由于网络配置滞后，导致健康检查系统接收错误反馈，触发可用区故障转移。

未来需要改进云计算系统的设计与运维，特别是对竞态条件和延迟的管理，以避免类似故障。

🏷️