土法炼钢兴趣小组的博客 ·

【GPU 算子工程】内存层次：global / L2 / shared / register 的带宽与延迟

💡 原文中文，约3600字，阅读约需9分钟。

📝

内容提要

GPU 存储分为五级：寄存器、共享内存、L2 缓存、全局内存和主机内存。优化访存的关键在于将频繁使用的数据保留在更高层级。寄存器和共享内存是最快的存储，L2 命中带宽是 DRAM 的八倍。算子的复用率影响性能，优化访存需关注数据流和复用。接下来将介绍如何编写 CUDA kernel，为访存与计算优化奠定基础。

🎯

关键要点

GPU 存储分为五级：寄存器、共享内存、L2 缓存、全局内存和主机内存。
优化访存的关键在于将频繁使用的数据保留在更高层级。
寄存器和共享内存是最快的存储，L2 命中带宽是 DRAM 的八倍。
算子的复用率影响性能，优化访存需关注数据流和复用。
下一步将介绍如何编写 CUDA kernel，为访存与计算优化奠定基础。

🔎

延伸解读

存储层次的重要性

GPU 的存储分为五级，各层级的带宽和延迟差异显著。理解这些差异对于优化访存至关重要，尤其是在设计高效的 CUDA kernel 时。将频繁使用的数据保留在更高层级，可以显著提升性能，避免因频繁访问低速存储而造成的瓶颈。

复用率与性能关系

算子的复用率直接影响其性能表现。高复用率意味着数据可以在更快的存储层级中反复使用，从而减少对全局内存的访问。优化访存时，关注数据流和复用策略是提升性能的关键，尤其是在处理复杂计算时。

L2 缓存的性能影响

L2 缓存的带宽是 DRAM 的八倍，工作集大小与 L2 的关系至关重要。当工作集超出 L2 缓存容量时，性能会显著下降。因此，在优化算子时，合理估算工作集大小并确保其适配 L2 缓存，可以有效提升整体性能。

❓

延伸问答

GPU 存储的五个层级是什么？

GPU 存储分为寄存器、共享内存、L2 缓存、全局内存和主机内存五个层级。

如何优化 GPU 的访存性能？

优化访存的关键在于将频繁使用的数据保留在更高层级，如寄存器和共享内存。

L2 缓存与全局内存的带宽差异有多大？

L2 命中时的带宽约为 3.4 TB/s，而全局内存的带宽约为 400 GB/s，差距超过 8 倍。

寄存器和共享内存的特点是什么？

寄存器是线程私有的最快存储，而共享内存是同一 block 内所有线程共享的可编程存储。

算子的复用率如何影响 GPU 性能？

算子的复用率越高，越能将数据留在片上存储，从而减少对全局带宽的依赖，提高性能。

下一步将介绍什么内容？

下一步将介绍如何编写 CUDA kernel，为访存与计算优化奠定基础。

🏷️