2025年10月19日亚马逊 us-east-1 宕机事故反思

💡 原文中文,约6100字,阅读约需15分钟。
📝

内容提要

2025年10月19日,AWS us-east-1区域发生严重宕机,持续14小时,影响140项服务,造成巨额损失。故障源于DynamoDB的DNS管理系统中的竞争条件,突显了云计算系统的复杂性及设计与运维的重要性。

🎯

关键要点

  • 2025年10月19日,AWS us-east-1区域发生严重宕机,持续14小时,影响140项服务,造成巨额损失。
  • 故障源于DynamoDB的DNS管理系统中的竞争条件,导致服务区域端点的DNS记录错误清空。
  • DynamoDB和EC2是AWS架构中的基础服务,一旦它们瘫痪,其他服务也会受到影响。
  • 此次故障揭示了软件系统设计与运维中的复杂性,尤其是对竞态条件和延迟的管理。
  • EC2服务故障的原因在于DynamoDB作为关键依赖项,导致心跳超时和租约失效。
  • NLB服务中断是由于网络配置滞后,导致健康检查系统接收错误反馈,触发可用区故障转移。
  • 此次事件强调了云计算系统设计与运维的重要性,未来需要改进以避免类似故障。
  • 作者认为AWS的可靠性仍然处于行业领先地位,但此次事件是其十年来的最大失误,需从中吸取教训。

延伸问答

2025年10月19日AWS us-east-1区域发生了什么事件?

AWS us-east-1区域发生了严重的宕机事故,持续14小时,影响了140项服务,造成巨额损失。

此次宕机的主要原因是什么?

宕机的主要原因是DynamoDB的DNS管理系统中存在竞争条件,导致DNS记录错误清空。

DynamoDB和EC2在AWS架构中扮演什么角色?

DynamoDB和EC2是AWS架构中的基础服务,一旦它们瘫痪,其他服务也会受到影响。

此次事件对AWS的可靠性有何影响?

此次事件被认为是AWS十年来的最大失误,但AWS的可靠性仍然处于行业领先地位。

在此次故障中,NLB服务中断的原因是什么?

NLB服务中断是由于网络配置滞后,导致健康检查系统接收错误反馈,触发可用区故障转移。

如何避免类似的宕机事故发生?

未来需要改进云计算系统的设计与运维,特别是对竞态条件和延迟的管理,以避免类似故障。

➡️

继续阅读