谷歌云服务大规模中断事件溯源,API管理系统故障引发全球瘫痪

💡 原文中文,约1400字,阅读约需4分钟。
📝

内容提要

2025年6月12日,谷歌云因API管理系统故障导致全球服务中断七小时,问题源于服务控制系统的空指针异常,影响数百万用户。谷歌已制定整改方案,冻结变更并加强错误处理机制。

🎯

关键要点

  • 2025年6月12日,谷歌云因API管理系统故障导致全球服务中断七小时。
  • 故障源于服务控制系统的空指针异常,影响数百万用户。
  • 服务控制系统负责管理API授权和配额策略,故障导致多个核心服务瘫痪。
  • 事故的直接原因是策略变更写入了包含空白字段的数据库表,导致全球同步复制。
  • 谷歌在事故报告中指出缺乏错误处理机制和功能标志保护是根本问题。
  • 网站可靠性工程团队在10分钟内定位问题,并在40分钟内部署紧急终止开关。
  • us-central1区域遭遇持续性问题,导致数据库过载,恢复过程延长。
  • 谷歌制定全面整改方案,包括冻结变更、模块化改造和全面审计。
  • 整改措施涵盖超过60项受影响服务,包括Gmail、Google Drive等。
  • 客户在中断期间遭遇API和用户界面间歇性访问问题。

延伸问答

谷歌云服务中断的具体时间是什么时候?

谷歌云服务中断发生在2025年6月12日。

导致谷歌云服务中断的主要原因是什么?

主要原因是服务控制系统中的空指针异常。

此次服务中断影响了哪些谷歌产品?

影响了包括Gmail、Google Drive、Google Meet等超过60项服务。

谷歌为防止类似事件采取了哪些整改措施?

谷歌采取了冻结变更、模块化改造和全面审计等整改措施。

服务控制系统的故障是如何引发全球服务瘫痪的?

故障导致的空指针异常触发了全球同步复制,造成多个核心服务崩溃。

谷歌云服务中断对用户造成了什么影响?

用户在中断期间遭遇API和用户界面间歇性访问问题。

➡️

继续阅读