一分钟读论文:《线上系统事故解决时间(TTM)需要多久?》

一分钟读论文:《线上系统事故解决时间(TTM)需要多久?》

💡 原文中文,约1400字,阅读约需4分钟。
📝

内容提要

本文研究了事故的发现、响应和解决时间,并提出了预测方法TTMPred。通过微软20个在线服务系统的事故数据,发现TTM与事故的严重性、影响范围、类型、来源、所属服务和所属团队有关。信息不足、沟通不畅、协作不协调是影响TTM的主要因素。文章介绍了TTMPred的方法和评估结果,表明其能够准确预测事故缓解时间,并具有良好的泛化能力。

🎯

关键要点

  • 事故的三个重要衡量指标是TTD、TTE和TTM。
  • TTM与事故的严重性、影响范围、类型、来源、所属服务和所属团队有显著相关性。
  • 信息不足、沟通不畅、协作不协调是影响TTM的主要因素。
  • 研究使用了2018年至2020年间微软20个在线服务系统的2.7万条事故数据。
  • 事故生命周期中的时间分布呈现周期性和长尾特征。
  • 不同属性的事故在持续时间和缓解时间上存在显著差异。
  • 事故处理过程中的挑战和障碍影响事故缓解时间。
  • 论文提出了基于深度学习的事故缓解时间预测方法TTMPred。
  • TTMPred在所有评价指标上显著优于对比方法,具有良好的泛化能力。
  • TTMPred的两层注意力机制提高了事故表示的质量。
  • TTMPred的连续损失函数优化了模型的预测性能。
➡️

继续阅读