💡
原文英文,约700词,阅读约需3分钟。
📝
内容提要
10月19日至20日,AWS因DynamoDB故障发生大规模停机,影响多个服务。故障源于DNS管理系统缺陷,导致DynamoDB端点解析失败。AWS计划修复并加强系统保护。
🎯
关键要点
- 10月19日至20日,AWS因DynamoDB故障发生大规模停机,影响多个服务。
- 故障源于DynamoDB的自动DNS管理系统中的潜在缺陷,导致端点解析失败。
- 许多依赖DynamoDB的服务,如EC2实例启动、Lambda调用和Fargate任务启动,也受到影响。
- 故障的根本原因是DynamoDB内部微服务中的竞争条件,导致服务区域端点的DNS记录错误。
- 在停机期间,新创建的EC2实例网络配置未能完成,影响了网络负载均衡器服务。
- AWS计划进行短期和长期的系统改进,包括修复竞争条件和增强DNS计划的保护措施。
- AWS已禁用DynamoDB的DNS规划器和DNS执行器自动化,计划在修复后重新启用。
- AWS还计划改善EC2数据传播系统的限流机制,以保护服务在高负载期间的稳定性。
- 一些专家指出,尽管此次停机引起了广泛关注,但应理解历史数据和实际数字,以避免过度反应。
- AWS事件历史记录跟踪所有受影响的服务及其时间线。
➡️