为什么你需要一个强大的警报系统——我们如何导致了9天的无声停机
💡
原文英文,约800词,阅读约需3分钟。
📝
内容提要
我们开发的Notify Me服务在9月13日至24日期间因软删除功能问题未能正常发送通知,影响了99%的用户。问题已通过调整数据库字段和运行脚本解决。我们在Discord中添加了警报系统以防止类似问题再次发生。
🎯
关键要点
- Notify Me服务在9月13日至24日期间因软删除功能问题未能正常发送通知,影响了99%的用户。
- 服务的核心功能是跟踪页面更新并发送通知,用户主要为3200名使用免费计划的用户。
- 问题源于新实施的软删除功能,导致调度器从数据库中提取被标记为删除的网站。
- 调度器在处理批量网站时,因所有提取的网站均被标记为删除,导致无法获取更新。
- 解决方案包括更新被删除网站的next_scrape值和运行脚本更新数据库中的现有条目。
- 整个问题的检测到解决过程不超过1小时,显示出团队的反应速度。
- 缺乏适当的警报系统是导致问题未能早期发现的原因,团队已在Discord中添加警报系统以防止类似问题再次发生。
➡️