💡
原文英文,约1400词,阅读约需5分钟。
📝
内容提要
全球850万台运行Microsoft Windows操作系统的计算机遭遇史上最大规模的软件故障,由网络安全公司CrowdStrike的常规软件更新引起。故障原因是配置文件问题,导致Windows系统崩溃。CrowdStrike在配置部署中存在问题,导致恢复时间较长。文章提出了预防类似事件的方法,包括测试和验证、部署和提高弹性。配置文件需要同样严谨对待,因为它不仅仅是内容,而是代码。
🎯
关键要点
- 全球850万台运行Windows的计算机遭遇史上最大规模的软件故障,影响了航空公司、银行、紧急服务和医院等关键业务。
- 故障由网络安全公司CrowdStrike的常规软件更新引起,原因是配置文件问题导致Windows系统崩溃。
- CrowdStrike的配置文件被称为“Channel Files”,其内容不当导致了内存越界读取,进而引发系统崩溃。
- CrowdStrike的配置更新过程未逐步进行,导致故障检测和恢复耗时1小时18分钟。
- 配置文件应被视为代码,更新频繁且需谨慎处理,测试和验证是防止类似事件的关键。
- 配置应有架构,任何更改都应进行验证,确保没有逻辑错误。
- 在生产环境中,需准备好捕捉问题并防止其演变为重大事件,建议采用分阶段部署。
- 应有良好的回滚机制,确保配置更改的撤销不应耗时过长,尤其是关键配置。
- 即使采取了预防措施,坏的配置更改仍可能到达生产环境,因此需要提高系统的弹性。
- 使用功能标志可以帮助防止故障,但在CrowdStrike事件的规模和复杂性下,功能标志不足以完全避免问题。
- 行业需要认识到,配置是代码的一部分,必须以同样的严格性和工程实践对待。
🏷️
标签
➡️