土法炼钢兴趣小组的博客 ·

【GPU 算子工程】Occupancy 与延迟隐藏：寄存器、shared memory 的取舍

💡 原文中文，约4100字，阅读约需10分钟。

📝

内容提要

本文探讨了GPU中的驻留率（occupancy）及其对延迟隐藏的重要性。高驻留率并不总是意味着高性能，实际有效带宽在驻留率达到33%时已饱和。提高驻留率可能导致寄存器溢出，从而降低性能。计算密集型内核可通过指令级并行（ILP）实现高效，而不依赖于高驻留率。应平衡驻留率与寄存器使用，避免盲目追求高驻留率。

🎯

关键要点

occupancy 衡量 SM 上驻留 warp 与硬件上限的比值，高 occupancy 不等于高性能。
高 occupancy 有助于隐藏延迟，但并非越高越好，实际有效带宽在 occupancy 达到 33% 时已饱和。
occupancy 由寄存器、shared memory 和 block/线程硬上限中最紧的资源决定。
提高 occupancy 可能导致寄存器溢出，反而降低性能，需平衡寄存器使用与 occupancy。
计算密集型内核可通过指令级并行（ILP）实现高效，而不依赖于高 occupancy。

🔎

延伸解读

驻留率与性能的关系

驻留率（occupancy）并非性能的唯一指标。尽管高驻留率有助于隐藏延迟，但实际有效带宽在达到33%时已饱和，进一步提高并不会带来显著收益。因此，开发者应关注如何在不同的计算密集型内核中找到合适的驻留率，而不是盲目追求100%的驻留率。

寄存器溢出的风险

提高驻留率通常需要降低每线程的寄存器使用，这可能导致寄存器溢出（spilling），从而降低性能。开发者在优化时应谨慎评估寄存器的使用情况，确保不会因追求高驻留率而引发性能下降。使用工具监测溢出情况是必要的步骤。

计算密集型内核的优化策略

对于计算密集型内核，依赖于指令级并行（ILP）而非高驻留率可以实现更高的性能。开发者应考虑使用寄存器分块等技术来提高ILP，从而在低驻留率下仍能达到较高的计算效率。这种方法在处理复杂计算时尤为有效。

❓

延伸问答

什么是GPU中的occupancy，它的重要性是什么？

occupancy是SM上驻留warp与硬件上限的比值，它的重要性在于可以帮助隐藏延迟，提高GPU的计算效率。

如何决定GPU的occupancy？

occupancy由寄存器、shared memory和block/线程硬上限中最紧的资源决定。

提高occupancy会有什么潜在的负面影响？

提高occupancy可能导致寄存器溢出，从而降低性能，反而使得计算变慢。

在什么情况下occupancy的提高是没有意义的？

当occupancy超过延迟隐藏的饱和点时，进一步提高occupancy没有额外收益。

计算密集型内核如何实现高效而不依赖高occupancy？

计算密集型内核可以通过指令级并行（ILP）实现高效，而不需要高occupancy。

如何在编写kernel时平衡occupancy与寄存器使用？

可以通过设置__launch_bounds__来提示编译器控制寄存器分配，从而平衡occupancy与寄存器使用。

🏷️