关于我们对2025年10月20日在AWS us-east-1发生事件的调查报告

关于我们对2025年10月20日在AWS us-east-1发生事件的调查报告

💡 原文英文,约1200词,阅读约需5分钟。
📝

内容提要

2025年10月20日,PlanetScale因DNS配置错误和网络不稳定发生故障,控制平面受影响,但客户数据库仍可用。服务于9:30 UTC恢复。事件后,PlanetScale计划提升对SaaS依赖的韧性和网络分区容忍度。

🎯

关键要点

  • 2025年10月20日,PlanetScale因DNS配置错误和网络不稳定发生故障。
  • 事件分为两个阶段,第一阶段影响控制平面,第二阶段影响AWS us-east-1的数据库分支。
  • 控制平面受影响时,客户数据库仍然可用。
  • 事件开始时,PlanetScale工程师在7:13 UTC被警报通知,控制平面几乎完全失效。
  • 在事件期间,PlanetScale仪表板间歇性可用,SSO用户无法登录。
  • 服务在9:30 UTC恢复,之后又出现了Kubernetes操作员资源耗尽的问题。
  • 由于无法启动新的EC2实例,客户的数据库请求被排队,但现有服务器仍可用。
  • PlanetScale采取措施减少对AWS us-east-1的EC2实例需求,包括暂时禁止创建新数据库。
  • 观察到AWS us-east-1的部分网络分区,导致一些客户查询失败。
  • 网络分区在18:30至19:30 UTC之间逐渐恢复,部分数据库服务器无法跨可用区通信。
  • 事件指挥官在20:32 UTC宣布事件解决,PlanetScale在此次事件中表现良好。
  • 事件后,PlanetScale计划提升对SaaS依赖的韧性和网络分区容忍度。

延伸问答

2025年10月20日PlanetScale发生了什么事件?

2025年10月20日,PlanetScale因DNS配置错误和网络不稳定发生故障,影响了控制平面和部分数据库分支。

事件对客户数据库的影响是什么?

在事件期间,客户数据库仍然可用,尽管控制平面受到了影响。

PlanetScale在事件中采取了哪些应对措施?

PlanetScale采取了暂时禁止创建新数据库、延迟备份调度和调整vtgate进程调度等措施,以减少对EC2实例的需求。

事件的恢复时间是什么时候?

服务在2025年10月20日9:30 UTC恢复,事件在20:32 UTC被宣布解决。

网络分区对客户查询的影响如何?

网络分区导致一些客户的查询失败,影响程度取决于使用的可用区。

PlanetScale计划如何提升未来的韧性?

PlanetScale计划提升对SaaS依赖的韧性和网络分区容忍度,并更好地利用AWS的可用区。

➡️

继续阅读