CPU 占用率 45% 的“黑洞”:一次 APISIX “黑盒”插件的 C 级别性能诊断

💡 原文中文,约5200字,阅读约需13分钟。
📝

内容提要

本文回顾了金融行业客户的案例,指出APISIX网关因CPU瓶颈导致延迟问题。传统工具无法定位,OpenResty XRay通过动态追踪技术识别出占44.8% CPU的pkey_rsa_decrypt函数,揭示其对系统性能的影响,并提出优化建议。

🎯

关键要点

  • 本文回顾了金融行业客户的案例,APISIX网关因CPU瓶颈导致延迟问题。

  • 传统工具无法定位问题,OpenResty XRay通过动态追踪技术识别出占44.8% CPU的pkey_rsa_decrypt函数。

  • 客户的APISIX网关在高峰时段CPU占用率达到100%,导致P99延迟急剧抖动。

  • perf工具无法将C函数调用与Lua代码关联,导致无法确认具体的性能瓶颈。

  • 客户的APM系统显示大部分耗时发生在access_by_lua阶段,但仍无法定位具体问题。

  • OpenResty XRay通过动态追踪技术重建完整调用栈,精确定位到pkey_rsa_decrypt函数。

  • pkey_rsa_decrypt函数来自OpenSSL库,用于RSA私钥解密,CPU占用高达44.8%。

  • 分析发现,可能是密钥长度过长或架构设计缺陷导致性能瓶颈。

  • 建议客户在cb-session-validation.lua中引入缓存机制,减少重复解密操作。

  • OpenResty XRay提供了跨越Lua和C的完整调用栈,帮助客户进行精确优化。

延伸问答

APISIX网关的CPU瓶颈是如何被发现的?

通过OpenResty XRay的动态追踪技术,识别出占44.8% CPU的pkey_rsa_decrypt函数,揭示了其对系统性能的影响。

传统性能监控工具在此案例中遇到了什么问题?

传统工具如perf无法将C函数调用与Lua代码关联,导致无法确认具体的性能瓶颈。

pkey_rsa_decrypt函数的高CPU占用可能由哪些原因造成?

可能是密钥长度过长或架构设计缺陷导致性能瓶颈。

OpenResty XRay如何帮助定位性能问题?

OpenResty XRay通过动态追踪重建完整调用栈,提供了跨越Lua和C的完整视图,帮助精确定位问题。

针对发现的性能瓶颈,有哪些优化建议?

建议在cb-session-validation.lua中引入缓存机制,减少重复解密操作,并检查RSA密钥长度是否过长。

在高峰时段,APISIX网关的CPU占用率达到了什么水平?

在高峰时段,APISIX网关的CPU占用率达到了100%。

➡️

继续阅读