因拼写错误,17个数据库被删除,微软 Azure DevOps 罢工十小时
💡
原文中文,约1300字,阅读约需4分钟。
📝
内容提要
微软的 Azure DevOps 服务在巴西南部地区发生了约十个小时的中断事件,原因是一个简单的拼写错误导致17个生产数据库被删除。微软已经采取各种修复和重新配置措施,但恢复过程非常复杂,需要阻断所有到巴西南部规模单位的流量,直到一切都充分准备好后,才重新加入负载平衡器并处理流量。
🎯
关键要点
- 微软的 Azure DevOps 服务在巴西南部地区发生了约十个小时的中断事件。
- 中断原因是一个简单的拼写错误导致17个生产数据库被删除。
- Azure DevOps 工程师定期对生产数据库进行快照处理,以便调查问题或测试性能。
- 在一次代码升级中,错误地将删除快照数据库的调用改成了删除托管数据库的调用。
- 错误的代码只在特定条件下运行,现有测试未能覆盖到这些条件。
- 由于没有快照数据库,内部部署没有发生意外,但客户环境中存在快照数据库,导致整个 Azure SQL 服务器和17个生产数据库被删除。
- 恢复数据库的过程复杂,需由 Azure 工程师处理,且不同数据库有不同的备份配置。
- 恢复过程中,客户无法立刻访问数据库,因网络服务器存在复杂问题。
- 恢复服务需要阻断所有到巴西南部规模单位的流量,直到一切准备好后才重新处理流量。
➡️