AIOps在美团的探索与实践——事件管理篇

AIOps在美团的探索与实践——事件管理篇

💡 原文中文,约9500字,阅读约需23分钟。
📝

内容提要

美团在AIOps领域的事件管理实践包括风险预防、故障发现、事件处理和事件运营四个模块,提升了事件管理效率。他们实现了变更风险智能检测、指标异常识别、诊断和预案推荐以及相似故障推荐等功能。团队还在探索智能日志检测和智能化变更识别等发展方向。该团队正在招聘高级工程师和技术专家。

🎯

关键要点

  • 美团在AIOps领域的事件管理实践包括风险预防、故障发现、事件处理和事件运营四个模块。

  • 实现了变更风险智能检测、指标异常识别、诊断和预案推荐以及相似故障推荐等功能。

  • 团队正在探索智能日志检测和智能化变更识别等发展方向。

  • 事件管理的复杂性体现在数据繁多和流程复杂两个方面。

  • 美团运维团队建设了丰富的工具体系,基于专家经验、规则配置、流程管控等方式进行事件管理。

  • 风险预防模块通过用户行为分析和异常检测实现变更风险智能检测。

  • 故障发现模块基于统计算法和机器学习算法识别指标的异常模式。

  • 事件处理模块通过多模态数据和算法规则引擎帮助用户快速定位故障。

  • 事件运营模块基于NLP技术推荐相似故障复盘,挖掘共性问题。

  • AIOps在事件管理领域的能力框架包括事前预防、事中处理和事后运营。

  • 故障发现需要快速、准确,团队开发了基于历史点分布相似的智能异常检测算法。

  • 根因诊断通过多方面定位故障根因,包括链路异常、日志堆栈异常等。

  • 相似事件推荐算法通过NLP技术和规则过滤,找到历史上最相似的事件。

  • 故障事后运营有助于经验沉淀,避免相同问题再次发生。

  • 美团的故障复盘系统COE记录了大量历史故障复盘内容,正在迭代和探索中。

  • 未来将探索智能日志检测和智能化变更识别等方向,提升事件管理效率。

  • 团队正在招聘高级工程师和技术专家,欢迎有兴趣的同学投递简历。

➡️

继续阅读