PlanetScale - Blog ·

关于我们对2025年10月20日在AWS us-east-1发生事件的调查报告

💡 原文英文，约1200词，阅读约需5分钟。

📝

内容提要

2025年10月20日，PlanetScale因DNS配置错误和网络不稳定发生故障，控制平面受影响，但客户数据库仍可用。服务于9:30 UTC恢复。事件后，PlanetScale计划提升对SaaS依赖的韧性和网络分区容忍度。

🎯

🔎

此次事件的影响分为两个阶段，首先是控制平面故障，客户数据库仍然可用，显示出PlanetScale在设计上的韧性。然而，第二阶段的网络分区导致部分客户查询失败，提醒用户在选择云服务时需关注服务的可用性和冗余设计。

PlanetScale采取了多项措施来应对事件，包括限制新数据库的创建和调整备份策略。这些措施不仅减轻了对EC2实例的需求，也为未来的事件应对提供了宝贵经验，强调了在云环境中灵活应变的重要性。

网络分区是云服务中最难以处理的故障模式之一。尽管PlanetScale在此次事件中表现良好，但仍需加强对网络分区的容忍度和测试，以确保在类似情况下能够更快恢复服务，减少客户影响。

❓

2025年10月20日，PlanetScale因DNS配置错误和网络不稳定发生故障，影响了控制平面和部分数据库分支。

在事件期间，客户数据库仍然可用，尽管控制平面受到了影响。

PlanetScale采取了暂时禁止创建新数据库、延迟备份调度和调整vtgate进程调度等措施，以减少对EC2实例的需求。

服务在2025年10月20日9:30 UTC恢复，事件在20:32 UTC被宣布解决。

网络分区导致一些客户的查询失败，影响程度取决于使用的可用区。

PlanetScale计划提升对SaaS依赖的韧性和网络分区容忍度，并更好地利用AWS的可用区。

🏷️