慢调用链诊断利器 - ARMS 代码热点

💡 原文中文,约5600字,阅读约需14分钟。
📝

内容提要

本文介绍了可观测技术的背景和监控盲区问题,阿里云ARMS团队联合阿里巴巴Dragonwell团队提供了持续剖析能力,通过代码热点排查慢调用链。

🎯

关键要点

  • 可观测技术的起源始于Google的Dapper论文,逐渐形成Metrics、Tracing和Logging三大方向的解决方案。
  • 通过可观测方案,问题诊断流程从依赖日志转变为通过Metrics和Tracing快速定位异常。
  • Tracing系统在监控盲区方面存在问题,特别是在复杂的分布式微服务环境中,难以准确判断业务逻辑耗时。
  • 阿里云ARMS团队与Dragonwell团队合作,提供持续剖析能力以解决Tracing监控盲区问题。
  • ARMS的持续剖析能力通过动态采集CPU和内存资源的堆栈信息,帮助监测和定位性能瓶颈。
  • ARMS提供的CPU和内存诊断功能支持低开销的常态化监控,避免错过不易复现的问题场景。
  • 代码热点功能通过关联TraceId和SpanId信息,提供On和Off-CPU的火焰图,帮助诊断慢调用链问题。
  • ARMS的持续剖析能力具有低开销、细粒度、安全可靠等特点,适合在生产环境中常态化使用。
  • 用户可以通过ARMS控制台开启代码热点功能,查看慢调用链的详细信息和性能瓶颈。
➡️

继续阅读