小红花·文摘

本文讨论了GPU访存优化的两个关键问题：合并访问和bank冲突。合并访问通过相邻线程访问相邻地址来提高带宽，而bank冲突是多个线程访问同一bank导致的性能下降。使用padding和向量化技术可以进一步提升带宽利用率。在矩阵转置操作中，使用shared memory可以有效解决访存模式问题。

【GPU 算子工程】访存优化：合并访问、bank conflict 与对齐

土法炼钢兴趣小组的博客 ·

GPU 存储分为五级：寄存器、共享内存、L2 缓存、全局内存和主机内存。优化访存的关键在于将频繁使用的数据保留在更高层级。寄存器和共享内存是最快的存储，L2 命中带宽是 DRAM 的八倍。算子的复用率影响性能，优化访存需关注数据流和复用。接下来将介绍如何编写 CUDA kernel，为访存与计算优化奠定基础。

【GPU 算子工程】内存层次：global / L2 / shared / register 的带宽与延迟

土法炼钢兴趣小组的博客 ·