FreeBuf网络安全行业门户 ·

谷歌云服务大规模中断事件溯源，API管理系统故障引发全球瘫痪

Q: 导致谷歌云服务中断的主要原因是什么？

主要原因是服务控制系统中的空指针异常。

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

2025年6月12日，谷歌云因API管理系统故障导致全球服务中断七小时，问题源于服务控制系统的空指针异常，影响数百万用户。谷歌已制定整改方案，冻结变更并加强错误处理机制。

🎯

关键要点

2025年6月12日，谷歌云因API管理系统故障导致全球服务中断七小时。
故障源于服务控制系统的空指针异常，影响数百万用户。
服务控制系统负责管理API授权和配额策略，故障导致多个核心服务瘫痪。
事故的直接原因是策略变更写入了包含空白字段的数据库表，导致全球同步复制。
谷歌在事故报告中指出缺乏错误处理机制和功能标志保护是根本问题。
网站可靠性工程团队在10分钟内定位问题，并在40分钟内部署紧急终止开关。
us-central1区域遭遇持续性问题，导致数据库过载，恢复过程延长。
谷歌制定全面整改方案，包括冻结变更、模块化改造和全面审计。
整改措施涵盖超过60项受影响服务，包括Gmail、Google Drive等。
客户在中断期间遭遇API和用户界面间歇性访问问题。

🔎

延伸解读

故障影响范围

此次谷歌云服务中断事件影响了数百万用户，涉及多个核心服务，如Gmail和Google Drive等。这表明，云服务的稳定性对企业运营至关重要，任何故障都可能导致业务中断和用户信任下降。

整改措施的重要性

谷歌在事故后迅速制定了全面整改方案，包括冻结变更和模块化改造。这些措施不仅是对当前问题的回应，也为未来防范类似事件提供了保障，强调了持续改进和风险管理的重要性。

技术细节与风险

故障的根本原因在于缺乏错误处理机制和功能标志保护，导致空指针异常。这提醒技术团队在进行系统变更时，必须重视代码的健壮性和容错能力，以避免潜在的系统崩溃风险。

❓

延伸问答

谷歌云服务中断的具体时间是什么时候？

谷歌云服务中断发生在2025年6月12日。

导致谷歌云服务中断的主要原因是什么？

主要原因是服务控制系统中的空指针异常。

此次服务中断影响了哪些谷歌产品？

影响了包括Gmail、Google Drive、Google Meet等超过60项服务。

谷歌为防止类似事件采取了哪些整改措施？

谷歌采取了冻结变更、模块化改造和全面审计等整改措施。

服务控制系统的故障是如何引发全球服务瘫痪的？

故障导致的空指针异常触发了全球同步复制，造成多个核心服务崩溃。

谷歌云服务中断对用户造成了什么影响？

用户在中断期间遭遇API和用户界面间歇性访问问题。

🏷️