量子位 ·

无需CUDA代码给H100加速33%-50%，Flash Attention作者新作火了

💡 原文中文，约7800字，阅读约需19分钟。

📝

内容提要

Tri Dao及其团队推出了QuACK内核库，完全用Python编写，利用CuTe-DSL，无需CUDA代码，在H100上实现33%-50%的加速，专注于内存密集型内核优化，提升GPU性能，受到业界关注。

🎯

🔎

QuACK内核库通过完全用Python编写，降低了开发门槛，使得不熟悉CUDA的开发者也能实现高效的GPU加速。这一创新可能会吸引更多研究者和开发者参与到GPU内核的优化中，推动相关技术的普及和应用。

文章强调了内存密集型内核的优化关键在于理解现代GPU的内存层级结构。通过合理的内存合并和归约策略，可以显著提升性能。开发者在设计内核时应关注这些细节，以避免性能瓶颈。

集群归约允许多个SM协同工作，显著提升处理能力，尤其在处理大规模数据时。开发者应考虑利用这一特性，以避免寄存器溢出和性能下降，从而实现更高的吞吐量。

❓

QuACK内核库完全用Python编写，利用CuTe-DSL，无需CUDA代码，专注于内存密集型内核优化。

QuACK在H100上实现了33%-50%的加速，优于其他深度优化库。

内存密集型内核优化依赖于现代加速器的线程和内存层级结构，以及内存合并和硬件感知的归约策略。

集群归约允许多个SM协同工作，提升处理能力，避免寄存器溢出，从而提高内存吞吐量。

Tri Dao认为高效的GPU内核开发流程可以自动化，未来可能通过大语言模型生成优化的GPU内核。

QuACK在归约维度≥65k时显著优于torch.compile，内存吞吐量更高，达到3.01TB/s。

🏷️