NVIDIA的Tensor Core专为加速矩阵运算而设计,TN布局在GEMM问题中表现最佳,优化了内存访问和缓存利用率,从而显著提升性能。大多数NVIDIA GPU架构仅支持TN布局的MMA指令。
NVIDIA GPU的峰值AI性能通常以TFLOPS或TOPS表示,但使用HPC软件重现这些性能并不总是有效。通过自定义微基准测试直接调用Tensor Core MMA指令,可以更可靠地测量性能。本文介绍了如何使用CUTLASS和CuTe测量NVIDIA Tensor Core MMA指令的峰值性能,并提供选择合适指令的参考。
本文讨论了在GPU上执行卷积的方法以及NHWC和NC/xHWx布局的优势。NHWC布局在卷积操作中性能更快,而NC/xHWx布局适用于NVIDIA Tensor Core操作。卷积操作涉及输入激活张量、滤波器张量、可选偏置张量和输出激活张量。隐式GEMM方法在GPU上执行卷积,NHWC布局适合隐式GEMM卷积,但使用Tensor Core时需要填充。NC/xHWx布局可以立即与Tensor Core一起使用。
完成下面两步后,将自动完成登录并继续当前操作。