土法炼钢兴趣小组的博客 ·

【GPU 算子工程】访存优化：合并访问、bank conflict 与对齐

💡 原文中文，约4200字，阅读约需10分钟。

📝

内容提要

本文讨论了GPU访存优化的两个关键问题：合并访问和bank冲突。合并访问通过相邻线程访问相邻地址来提高带宽，而bank冲突是多个线程访问同一bank导致的性能下降。使用padding和向量化技术可以进一步提升带宽利用率。在矩阵转置操作中，使用shared memory可以有效解决访存模式问题。

🎯

🔎

合并访问是提高GPU带宽利用率的关键。通过相邻线程访问相邻地址，可以显著减少内存事务的数量，从而避免带宽浪费。在实际应用中，设计访问模式时应优先考虑合并访问，以确保性能最大化。

bank冲突会导致性能显著下降，尤其是在多个线程同时访问同一bank时。使用padding技术可以有效消除这种冲突，提升访存效率。在设计共享内存布局时，合理使用padding是优化性能的常见手段。

对齐和向量化是进一步提升GPU访存带宽的有效手段。确保数据对齐到事务边界，并使用向量化技术，可以减少访存指令数，提高每次事务的有效载荷。这些技术在访存密集型的kernel中尤为重要。

❓

合并访问是指相邻线程访问相邻地址，从而提高带宽利用率，避免跨步访问造成的带宽浪费。

bank冲突发生在多个线程访问同一bank时，导致性能下降，因为硬件只能串行处理这些请求。

通过在shared memory中增加一列padding，可以使得线程访问不同的bank，从而消除bank冲突。

使用shared memory可以有效解决访存模式问题，使得两端的global访问都变成合并访问，从而提高性能。

对齐确保访问地址符合事务边界，而向量化通过减少访存指令数来提高每事务的有效载荷，从而提升带宽利用率。

有效带宽取决于访问模式，合并访问时带宽接近理论上限，而跨步访问会导致有效带宽大幅下降。

🏷️