抖音 ANR 自动归因平台建设实践

💡 原文中文,约8600字,阅读约需21分钟。
📝

内容提要

本文介绍了抖音在ANR问题治理上的挑战和建设ANR归因平台的思路,包括单点归因、聚合归因和劣化问题归因三个方向的建设思路。文章还介绍了平台的落地效果和未来规划。

🎯

关键要点

  • 抖音在ANR问题治理上面临挑战,缺乏有效的归因手段。

  • ANR是Android系统定义的应用程序无响应异常,严重影响用户体验。

  • 传统归因方案依赖于ANR Trace和ANR Info,但存在归因不准确的问题。

  • 慢消息归因方案提供更细粒度的监控,但仍难以定位复杂问题的根本原因。

  • ANR归因平台建设思路包括单点问题归因、聚合问题归因和劣化问题归因。

  • 单点ANR问题归因分为明确问题区间、粗归因和细归因三个步骤。

  • 粗归因分析主线程消息的执行情况,识别On-CPU和Off-CPU状态。

  • 细归因需要监控主线程消息,分析耗时消息和高频消息。

  • 后台任务异常归因需明确CPU资源抢占情况,定位具体问题代码。

  • 聚合归因通过大数据分析帮助聚焦重点问题,生成归因标签。

  • 平台落地效果显著,成功发现并修复多个ANR问题,降低ANR率。

  • 未来规划包括持续优化归因体系、防劣化体系和专家系统。

➡️

继续阅读