小红花·文摘

Tensor Core 是专用的矩阵计算单元，利用 MMA 指令实现高效的矩阵乘加运算。FP16 Tensor Core 的吞吐量可达 72.8 TFLOP/s，显著高于 FP32 的 16 TFLOP/s。使用 Tensor Core 时，数据传输速度常成为瓶颈，因此需要优化数据布局和访存策略。CUDA 的 wmma API 简化了 Tensor Core 的使用，而高性能库如 CUTLASS 则能更精细地控制数据布局。

【GPU 算子工程】Tensor Core 与 MMA：wmma、mma.sync 与数据布局

土法炼钢兴趣小组的博客 ·

NVIDIA的Tensor Core专为加速矩阵运算而设计，TN布局在GEMM问题中表现最佳，优化了内存访问和缓存利用率，从而显著提升性能。大多数NVIDIA GPU架构仅支持TN布局的MMA指令。

NVIDIA Tensor Core TN布局MMA指令

Lei Mao's Log Book ·

NVIDIA GPU的峰值AI性能通常以TFLOPS或TOPS表示，但使用HPC软件重现这些性能并不总是有效。通过自定义微基准测试直接调用Tensor Core MMA指令，可以更可靠地测量性能。本文介绍了如何使用CUTLASS和CuTe测量NVIDIA Tensor Core MMA指令的峰值性能，并提供选择合适指令的参考。

基准测试NVIDIA Tensor Core MMA指令的峰值性能

Lei Mao's Log Book ·

本文讨论了在GPU上执行卷积的方法以及NHWC和NC/xHWx布局的优势。NHWC布局在卷积操作中性能更快，而NC/xHWx布局适用于NVIDIA Tensor Core操作。卷积操作涉及输入激活张量、滤波器张量、可选偏置张量和输出激活张量。隐式GEMM方法在GPU上执行卷积，NHWC布局适合隐式GEMM卷积，但使用Tensor Core时需要填充。NC/xHWx布局可以立即与Tensor Core一起使用。

卷积的CUDA张量布局

Lei Mao's Log Book ·