HyperAI超神经 ·

CUDA初始团队成员锐评cuTile「专打」Triton，Tile范式能否重塑GPU编程生态竞争格局

💡 原文中文，约5000字，阅读约需12分钟。

📝

内容提要

NVIDIA于2025年发布CUDA 13.1，引入cuTile编程模型，旨在简化GPU编程并降低开发门槛。cuTile支持Python，自动优化硬件性能，以满足AI时代对自定义算子的需求。尽管仍处于早期阶段，开发者反馈积极，显示出成为新编程范式的潜力。

🎯

🔎

cuTile的推出旨在降低GPU编程的复杂性，吸引更多开发者。然而，市场对其的反响并非全然积极，部分开发者对新DSL的学习成本表示担忧。cuTile能否在竞争激烈的生态中脱颖而出，取决于其能否有效优化开发体验并降低迁移成本。

cuTile的出现被视为对Triton的直接回应，二者在功能上有相似之处。尽管cuTile在开发者社区中获得了一定的认可，但其是否能在Triton的阴影下建立自己的市场地位，仍需观察。开发者的选择将影响未来的技术分工。

cuTile采用的Tile编程模型使得开发者可以更高效地组织代码，专注于算法而非底层细节。这种方法有助于提升代码的可读性和可维护性，尤其是在AI算子需求日益增长的背景下，cuTile的设计理念可能会成为未来GPU编程的重要趋势。

❓

cuTile旨在简化GPU编程，降低开发门槛，支持Python，并自动优化硬件性能。

cuTile被认为是对Triton的直接竞争，旨在提升CUDA生态的吸引力和开发体验。

cuTile通过Tile-based编程模型重新组织GPU内核结构，使开发者无需直接操作底层代码即可实现高性能。

开发者反馈总体积极，认为cuTile在代码组织和可读性上有显著改进，但也有部分用户对新DSL表示担忧。

cuTile的推出是对AI时代日益增长的自定义算子需求的回应，旨在降低GPU编程的复杂性。

cuTile的未来取决于其能否优化开发体验、降低迁移成本，并为复杂算子提供不可替代的性能优势。

🏷️