无需CUDA代码给H100加速33%-50%,Flash Attention作者新作火了
💡
原文中文,约7800字,阅读约需19分钟。
📝
内容提要
Tri Dao及其团队推出了QuACK内核库,完全用Python编写,利用CuTe-DSL,无需CUDA代码,在H100上实现33%-50%的加速,专注于内存密集型内核优化,提升GPU性能,受到业界关注。
🎯
关键要点
- Tri Dao及其团队推出了QuACK内核库,完全用Python编写,利用CuTe-DSL,无需CUDA代码。
- QuACK在H100上实现了33%-50%的加速,专注于内存密集型内核优化。
- 内存密集型内核的优化主要依赖于现代加速器的线程和内存层级结构。
- 作者提供了具体的优化建议,强调了内存合并和硬件感知的归约策略。
- QuACK的实现方案在归约维度≥65k时显著优于其他基准方案。
- 集群归约允许多个SM协同工作,提升了处理能力,避免了寄存器溢出。
- 作者认为高效的GPU内核开发流程可以自动化,未来可能通过大语言模型生成优化的GPU内核。
➡️