💡
原文中文,约1400字,阅读约需4分钟。
📝
内容提要
本文研究了事故的发现、响应和解决时间,并提出了预测方法TTMPred。通过微软20个在线服务系统的事故数据,发现TTM与事故的严重性、影响范围、类型、来源、所属服务和所属团队有关。信息不足、沟通不畅、协作不协调是影响TTM的主要因素。文章介绍了TTMPred的方法和评估结果,表明其能够准确预测事故缓解时间,并具有良好的泛化能力。
🎯
关键要点
- 事故的三个重要衡量指标是TTD、TTE和TTM。
- TTM与事故的严重性、影响范围、类型、来源、所属服务和所属团队有显著相关性。
- 信息不足、沟通不畅、协作不协调是影响TTM的主要因素。
- 研究使用了2018年至2020年间微软20个在线服务系统的2.7万条事故数据。
- 事故生命周期中的时间分布呈现周期性和长尾特征。
- 不同属性的事故在持续时间和缓解时间上存在显著差异。
- 事故处理过程中的挑战和障碍影响事故缓解时间。
- 论文提出了基于深度学习的事故缓解时间预测方法TTMPred。
- TTMPred在所有评价指标上显著优于对比方法,具有良好的泛化能力。
- TTMPred的两层注意力机制提高了事故表示的质量。
- TTMPred的连续损失函数优化了模型的预测性能。
➡️