Modular Blog ·

模块化：在Blackwell上的矩阵乘法：第4部分 - 打破SOTA

💡 原文英文，约2500词，阅读约需9分钟。

📝

内容提要

本文介绍了在NVIDIA Blackwell上优化矩阵乘法内核的过程，重点在于集群启动控制（CLC）优化。通过使用持久内核和调度器，消除了共享内存和障碍初始化的开销，性能提升15%，达到1772 TFLOPs，超越当前的SOTA。此外，探讨了通过块交换提高L2缓存命中率，从而实现更高效的调度和性能。

🎯

关键要点

本文介绍了在NVIDIA Blackwell上优化矩阵乘法内核的过程，重点在于集群启动控制（CLC）优化。
通过使用持久内核和调度器，消除了共享内存和障碍初始化的开销，性能提升15%，达到1772 TFLOPs，超越当前的SOTA。
持久内核允许内核作者控制块瓷砖坐标的调度，从而提高性能。
Blackwell架构引入了硬件调度器，通过优雅的生产者-消费者模型来协调工作。
通过流水线化调度，减少了CLC调度开销，提高了性能。
将TMEM视为循环缓冲区，解决了空闲波浪和顺序执行的问题。
使用线程块交换技术提高L2缓存命中率，进一步优化性能。
在生产中，优化参数选择对于不同形状的矩阵乘法至关重要。
Mojo的自动调优框架能够选择最佳参数，超越当前的SOTA实现。
未来GPU将变得更强大，编程模式也需要更加复杂，以实现峰值性能。

🔎

延伸解读

集群启动控制（CLC）的重要性

集群启动控制（CLC）在NVIDIA Blackwell架构中引入了硬件调度器，优化了线程块的调度。这种硬件级别的调度能够有效减少软件管理带来的开销，提高了整体性能。通过优雅的生产者-消费者模型，CLC确保了工作负载的高效分配，尤其在多核同时运行时，能够避免资源的浪费。

持久内核的优势与局限

持久内核允许开发者控制块瓷砖的调度，从而提升性能。然而，它假设所有流处理器（SM）始终处于忙碌状态，这在实际应用中并不总是成立。若GPU同时运行多个内核，可能导致调度不佳和资源饥饿。因此，在使用持久内核时，需考虑实际的工作负载和资源分配情况。

优化参数选择的关键性

在生产环境中，矩阵乘法的形状多样化，优化参数的选择至关重要。不同的矩阵形状需要不同的MMA形状、流水线阶段和块交换模式，以最大化流处理器的利用率。Mojo的自动调优框架能够根据实际工作负载选择最佳参数，从而在性能上超越当前的SOTA实现。

❓

延伸问答

在NVIDIA Blackwell上优化矩阵乘法内核的主要目标是什么？

主要目标是通过集群启动控制（CLC）优化，提高矩阵乘法内核的性能，最终达到1772 TFLOPs，超越当前的SOTA。

什么是持久内核，它如何提高性能？

持久内核允许内核作者控制块瓷砖坐标的调度，从而消除共享内存和障碍初始化的开销，提高性能。

集群启动控制（CLC）在Blackwell架构中有什么新特性？

CLC引入了硬件调度器，通过优雅的生产者-消费者模型来协调工作，优化了线程块的调度。

如何通过块交换技术提高L2缓存命中率？

块交换技术通过创建锯齿形调度模式，优化了工作块的调度，从而提高了L2缓存的命中率。

Mojo的自动调优框架如何帮助优化矩阵乘法？

Mojo的自动调优框架能够选择最佳参数，确保在不同形状的矩阵乘法中实现最佳性能，超越当前的SOTA。

未来GPU的发展趋势是什么？

未来GPU将变得更强大，编程模式也需要更加复杂，以实现峰值性能。

🏷️