vLLM Blog ·

追踪挂起和复杂的GPU内核至源代码

💡 原文英文，约2900词，阅读约需11分钟。

📝

内容提要

本文介绍了两种CUDA内核调试技术：用户触发的核心转储和通过编译二进制文件中的行信息追踪复杂内核源代码。这些技术帮助开发者识别挂起的内核和非法内存访问问题，从而提高调试效率。

🎯

🔎

随着GPU计算能力的提升，CUDA内核的复杂性也在增加。调试这些内核变得愈发重要，尤其是在处理非法内存访问和内核挂起问题时。本文介绍的调试技术能够帮助开发者更有效地定位问题，减少调试时间，提高开发效率。

用户诱导的GPU核心转储技术为开发者提供了一种新的调试手段。通过触发核心转储，开发者可以获取GPU的内部状态，从而更准确地识别导致内核挂起的具体原因。这种方法在复杂内核调试中尤为有效，能够显著提升问题定位的准确性。

在调试复杂CUDA内核时，编译时嵌入行信息是至关重要的。使用NVCC_PREPEND_FLAGS='-lineinfo'选项可以帮助开发者追踪到具体的代码行，避免因内联优化而导致的调试困难。确保在编译时使用此选项，可以大大提高调试的效率和准确性。

❓

主要有用户触发的核心转储和通过编译二进制文件中的行信息追踪复杂内核源代码。

可以通过写入管道触发核心转储，CUDA驱动程序会将GPU状态转储到文件中，便于检查。

使用行信息可以帮助开发者追踪导致问题的具体代码行，提高调试效率。

cuda-gdb可能无法找到正确的代码行，尤其是在复杂内核中，通常只显示最后一行。

可以使用cuda-gdb打开核心转储文件，结合行信息来定位具体的错误行。

行信息可以显著提高调试效率，帮助开发者快速找到问题源头，尤其是复杂内核中的问题。

🏷️