Manjusaka ·

Saka 馬鹿

💡 原文中文，约2400字，阅读约需6分钟。

📝

内容提要

这篇博客总结了作者在2025年首次演讲中提到的两个低级错误：数据库删除事故和CDN变更事故。作者反思了事故原因，指出基础设施保护不足和缺乏监控，并提出改进措施，如将Terraform状态迁移至S3、引入双重审核和灰度发布等，希望读者能从中获得启发。

🎯

🔎

作者在文章中提到的两个事故反映了基础设施管理中的普遍问题，如缺乏监控和变更审核。读者应关注这些教训，尤其是在进行关键变更时，确保有足够的保护措施和审核流程，以避免类似的低级错误。

文章中提出的改进措施，如将Terraform状态迁移至S3和引入双重审核，强调了基础设施管理的规范化。读者在实际工作中应考虑实施这些措施，以提高系统的稳定性和安全性，减少事故发生的概率。

作者强调备份的重要性，并建议定期进行备份测试。读者在设计数据管理策略时，应重视备份的有效性和恢复时间预期，以确保在发生事故时能够迅速恢复业务，降低损失。

❓

作者提到的两个低级错误是数据库删除事故和CDN变更事故。

数据库删除事故因Terraform状态文件管理不当，导致在执行时忽略了删除提示，从而删除了重要资源。

在CDN变更事故中，首先切断相关流量，停止业务脚本调用，随后回滚WAF规则，最终在约40分钟后恢复业务流量。

改进措施包括将Terraform状态迁移至S3、引入双重审核和灰度发布机制，以及定期进行备份测试。

作者建议在事故发生后及时降级服务，切断入口流量，以避免流量冲击恢复过程。

作者建议定期进行备份测试，以验证备份的有效性和恢复时间预期，并根据业务重要性选择备份周期。

🏷️