💡
原文英文,约1200词,阅读约需5分钟。
📝
内容提要
2025年10月20日,PlanetScale因DNS配置错误和网络不稳定发生故障,控制平面受影响,但客户数据库仍可用。服务于9:30 UTC恢复。事件后,PlanetScale计划提升对SaaS依赖的韧性和网络分区容忍度。
🎯
关键要点
- 2025年10月20日,PlanetScale因DNS配置错误和网络不稳定发生故障。
- 事件分为两个阶段,第一阶段影响控制平面,第二阶段影响AWS us-east-1的数据库分支。
- 控制平面受影响时,客户数据库仍然可用。
- 事件开始时,PlanetScale工程师在7:13 UTC被警报通知,控制平面几乎完全失效。
- 在事件期间,PlanetScale仪表板间歇性可用,SSO用户无法登录。
- 服务在9:30 UTC恢复,之后又出现了Kubernetes操作员资源耗尽的问题。
- 由于无法启动新的EC2实例,客户的数据库请求被排队,但现有服务器仍可用。
- PlanetScale采取措施减少对AWS us-east-1的EC2实例需求,包括暂时禁止创建新数据库。
- 观察到AWS us-east-1的部分网络分区,导致一些客户查询失败。
- 网络分区在18:30至19:30 UTC之间逐渐恢复,部分数据库服务器无法跨可用区通信。
- 事件指挥官在20:32 UTC宣布事件解决,PlanetScale在此次事件中表现良好。
- 事件后,PlanetScale计划提升对SaaS依赖的韧性和网络分区容忍度。
❓
延伸问答
2025年10月20日PlanetScale发生了什么事件?
2025年10月20日,PlanetScale因DNS配置错误和网络不稳定发生故障,影响了控制平面和部分数据库分支。
事件对客户数据库的影响是什么?
在事件期间,客户数据库仍然可用,尽管控制平面受到了影响。
PlanetScale在事件中采取了哪些应对措施?
PlanetScale采取了暂时禁止创建新数据库、延迟备份调度和调整vtgate进程调度等措施,以减少对EC2实例的需求。
事件的恢复时间是什么时候?
服务在2025年10月20日9:30 UTC恢复,事件在20:32 UTC被宣布解决。
网络分区对客户查询的影响如何?
网络分区导致一些客户的查询失败,影响程度取决于使用的可用区。
PlanetScale计划如何提升未来的韧性?
PlanetScale计划提升对SaaS依赖的韧性和网络分区容忍度,并更好地利用AWS的可用区。
➡️