为什么你需要一个强大的警报系统——我们如何导致了9天的无声停机

💡 原文英文,约800词,阅读约需3分钟。
📝

内容提要

我们开发的Notify Me服务在9月13日至24日期间因软删除功能问题未能正常发送通知,影响了99%的用户。问题已通过调整数据库字段和运行脚本解决。我们在Discord中添加了警报系统以防止类似问题再次发生。

🎯

关键要点

  • Notify Me服务在9月13日至24日期间因软删除功能问题未能正常发送通知,影响了99%的用户。
  • 服务的核心功能是跟踪页面更新并发送通知,用户主要为3200名使用免费计划的用户。
  • 问题源于新实施的软删除功能,导致调度器从数据库中提取被标记为删除的网站。
  • 调度器在处理批量网站时,因所有提取的网站均被标记为删除,导致无法获取更新。
  • 解决方案包括更新被删除网站的next_scrape值和运行脚本更新数据库中的现有条目。
  • 整个问题的检测到解决过程不超过1小时,显示出团队的反应速度。
  • 缺乏适当的警报系统是导致问题未能早期发现的原因,团队已在Discord中添加警报系统以防止类似问题再次发生。
➡️

继续阅读