被报警大量骚扰?来看看治理方法论

💡 原文中文,约5200字,阅读约需13分钟。
📝

内容提要

本文介绍了蚂蚁金服在监控治理方面的措施,包括降噪治理的必要性、查看噪音、降噪方法论、智能降噪和CDO报警降噪等。治理结果显示,噪音数已经大大减少,同时保持准确率不变。

🎯

关键要点

  • 蚂蚁金服启动监控治理,旨在提高响应速度和过滤噪音。
  • 降噪治理的必要性包括避免告警疲劳和节省系统资源。
  • 使用极光报警数据看板查看噪音和故障数据,以获取改进信息。
  • 监控效果的衡量指标为召回率,目标是接近100%的召回率和提高准确率。
  • 监控规则分为普通规则和智能规则,普通规则需定期调整以适应业务变化。
  • 通过多维度触发条件和黑白名单配置来减少噪音。
  • 环比和同比分析用于监控数据惯性变化,判断异常情况。
  • 智能降噪工具可有效抑制告警风暴和短周期抖动。
  • CDO报警用于监测复杂事件,需规范化异常和日志处理。
  • 治理结果显示噪音数显著减少,准确率提升,保持召回率不变。
  • 降噪治理需结合业务实际,并定期以指标衡量效果。
➡️

继续阅读