被报警大量骚扰?来看看治理方法论
💡
原文中文,约5200字,阅读约需13分钟。
📝
内容提要
本文介绍了蚂蚁金服在监控治理方面的措施,包括降噪治理的必要性、查看噪音、降噪方法论、智能降噪和CDO报警降噪等。治理结果显示,噪音数已经大大减少,同时保持准确率不变。
🎯
关键要点
- 蚂蚁金服启动监控治理,旨在提高响应速度和过滤噪音。
- 降噪治理的必要性包括避免告警疲劳和节省系统资源。
- 使用极光报警数据看板查看噪音和故障数据,以获取改进信息。
- 监控效果的衡量指标为召回率,目标是接近100%的召回率和提高准确率。
- 监控规则分为普通规则和智能规则,普通规则需定期调整以适应业务变化。
- 通过多维度触发条件和黑白名单配置来减少噪音。
- 环比和同比分析用于监控数据惯性变化,判断异常情况。
- 智能降噪工具可有效抑制告警风暴和短周期抖动。
- CDO报警用于监测复杂事件,需规范化异常和日志处理。
- 治理结果显示噪音数显著减少,准确率提升,保持召回率不变。
- 降噪治理需结合业务实际,并定期以指标衡量效果。
➡️