抖音 ANR 自动归因平台建设实践
💡
原文中文,约9200字,阅读约需22分钟。
📝
内容提要
本文介绍了抖音在ANR问题管理上的挑战和建设ANR归因渠道的思路,包括单点问题归因、聚合问题归因和劣化问题归因。作者总结了归因渠道的落地效果,并展望了未来的规划。
🎯
关键要点
- 抖音在ANR问题管理上面临挑战,缺乏有效的归因手段。
- ANR是Android系统定义的应用程序无响应异常,严重影响用户体验。
- 传统的ANR归因计划依赖于系统生成的ANR Trace和ANR Info,但存在归因不准确的问题。
- 慢音讯归因计划通过监控主线程音讯执行状况,提供更细粒度的监控和归因能力。
- 现有ANR归因计划存在归因不准确、归因能力不足和效率低的问题。
- ANR归因渠道的建设思路包括单点问题归因、聚合问题归因和劣化问题归因。
- 单点ANR问题归因分为确认问题区间、粗归因和细归因三个步骤。
- 粗归因分析主要关注主线程音讯的执行情况,识别引起ANR的根本原因。
- 细归因需要监控主线程音讯的耗时情况,并结合上下文信息进行深入分析。
- 后台任务的CPU资源抢占也会导致ANR,需要结合系统调度信息进行分析。
- 聚合归因通过对大数据的分析,帮助识别和优化Top问题。
- 渠道的落地效果显著,发现并修复了多个有效问题,降低了ANR率。
- 未来规划包括继续优化归因系统、提升防劣化能力和沉淀专家经验。
➡️