CPU 时间是如何耗费在 llama.cpp 程序和 LLaMA2 模型内部的(使用 OpenResty XRay)
💡
原文中文,约2800字,阅读约需7分钟。
📝
内容提要
介绍使用 OpenResty XRay 分析 LLaMA2 模型的 llama.cpp 程序,定位消耗最多 CPU 时间的代码路径,同时介绍作者章亦春的背景和贡献。
🎯
关键要点
-
介绍使用 OpenResty XRay 分析 LLaMA2 模型的 llama.cpp 程序。
-
定位消耗最多 CPU 时间的 C++ 代码路径。
-
编译 C++ 项目并运行 llama.cpp 的 main 程序。
-
使用 OpenResty XRay 的引导式分析功能定位高 CPU 使用率的问题。
-
生成分析报告,显示占用 CPU 时间最多的 C++ 代码路径。
-
ggml_compute_forward_mul_mat 函数是主要的 CPU 消耗源。
-
ggml_vec_dot_q4_K_q8_K 函数是第二大 CPU 消耗源。
-
OpenResty XRay 可以自动监控在线进程并生成报告。
-
OpenResty XRay 是一个动态追踪产品,解决性能问题和安全漏洞。
-
章亦春是 OpenResty 项目的创始人,具有丰富的开源经验。
➡️