抖音 ANR 自动归因平台建设实践
💡
原文中文,约8600字,阅读约需21分钟。
📝
内容提要
本文介绍了抖音在ANR问题治理上的挑战和建设ANR归因平台的思路,包括单点归因、聚合归因和劣化问题归因三个方向的建设思路。文章还介绍了平台的落地效果和未来规划。
🎯
关键要点
-
抖音在ANR问题治理上面临挑战,缺乏有效的归因手段。
-
ANR是Android系统定义的应用程序无响应异常,严重影响用户体验。
-
传统归因方案依赖于ANR Trace和ANR Info,但存在归因不准确的问题。
-
慢消息归因方案提供更细粒度的监控,但仍难以定位复杂问题的根本原因。
-
ANR归因平台建设思路包括单点问题归因、聚合问题归因和劣化问题归因。
-
单点ANR问题归因分为明确问题区间、粗归因和细归因三个步骤。
-
粗归因分析主线程消息的执行情况,识别On-CPU和Off-CPU状态。
-
细归因需要监控主线程消息,分析耗时消息和高频消息。
-
后台任务异常归因需明确CPU资源抢占情况,定位具体问题代码。
-
聚合归因通过大数据分析帮助聚焦重点问题,生成归因标签。
-
平台落地效果显著,成功发现并修复多个ANR问题,降低ANR率。
-
未来规划包括持续优化归因体系、防劣化体系和专家系统。
➡️