本文介绍了在NVIDIA Blackwell上优化矩阵乘法内核的过程,重点在于集群启动控制(CLC)优化。通过使用持久内核和调度器,消除了共享内存和障碍初始化的开销,性能提升15%,达到1772 TFLOPs,超越当前的SOTA。此外,探讨了通过块交换提高L2缓存命中率,从而实现更高效的调度和性能。
完成下面两步后,将自动完成登录并继续当前操作。