【Triton 教程】triton.autotune
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
Triton于2021年发布,最初了解不深。它将基于Thread的模型扩展为基于block的,类似于将矩阵元素粒度转变为分块矩阵粒度,适合GPU设备的局部缓存,传统写法使用三重循环。
🎯
关键要点
- Triton于2021年发布1.0版本。
- 最初对Triton了解不深,认为其项目较新且小众。
- Triton将基于Thread的模型扩展为基于block的模型。
- 从线性代数的角度看,Triton将矩阵元素粒度转变为分块矩阵粒度。
- Triton适合GPU设备的局部缓存。
- 传统的写法使用三重循环。
➡️