一分钟读论文:《线上系统事故解决时间(TTM)需要多久?》

事故从发现到解决有三个重要的衡量指标: TTD(Time To Detect,事故被发现的时间)、TTE(Time To Engage,相关责任人响应时间)、TTM(Time To Mitigate,事故缓解或解决时间)。TTM 是定位问题和制定解决方案并解决的时长。微软研究院的论文《How Long Will it Take to Mitigate this Incident for...

本文研究了事故的发现、响应和解决时间,并提出了预测方法TTMPred。通过微软20个在线服务系统的事故数据,发现TTM与事故的严重性、影响范围、类型、来源、所属服务和所属团队有关。信息不足、沟通不畅、协作不协调是影响TTM的主要因素。文章介绍了TTMPred的方法和评估结果,表明其能够准确预测事故缓解时间,并具有良好的泛化能力。

一分钟读论文:《线上系统事故解决时间(TTM)需要多久?》
原文中文,约1400字,阅读约需4分钟。发表于:
阅读原文