因拼写错误,17个数据库被删除,微软 Azure DevOps 罢工十小时

💡 原文中文,约1300字,阅读约需4分钟。
📝

内容提要

微软的 Azure DevOps 服务在巴西南部地区发生了约十个小时的中断事件,原因是一个简单的拼写错误导致17个生产数据库被删除。微软已经采取各种修复和重新配置措施,但恢复过程非常复杂,需要阻断所有到巴西南部规模单位的流量,直到一切都充分准备好后,才重新加入负载平衡器并处理流量。

🎯

关键要点

  • 微软的 Azure DevOps 服务在巴西南部地区发生了约十个小时的中断事件。
  • 中断原因是一个简单的拼写错误导致17个生产数据库被删除。
  • Azure DevOps 工程师定期对生产数据库进行快照处理,以便调查问题或测试性能。
  • 在一次代码升级中,错误地将删除快照数据库的调用改成了删除托管数据库的调用。
  • 错误的代码只在特定条件下运行,现有测试未能覆盖到这些条件。
  • 由于没有快照数据库,内部部署没有发生意外,但客户环境中存在快照数据库,导致整个 Azure SQL 服务器和17个生产数据库被删除。
  • 恢复数据库的过程复杂,需由 Azure 工程师处理,且不同数据库有不同的备份配置。
  • 恢复过程中,客户无法立刻访问数据库,因网络服务器存在复杂问题。
  • 恢复服务需要阻断所有到巴西南部规模单位的流量,直到一切准备好后才重新处理流量。
➡️

继续阅读