【Triton 教程】triton.autotune

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

Triton于2021年发布,最初了解不深。它将基于Thread的模型扩展为基于block的,类似于将矩阵元素粒度转变为分块矩阵粒度,适合GPU设备的局部缓存,传统写法使用三重循环。

🎯

关键要点

  • Triton于2021年发布1.0版本。
  • 最初对Triton了解不深,认为其项目较新且小众。
  • Triton将基于Thread的模型扩展为基于block的模型。
  • 从线性代数的角度看,Triton将矩阵元素粒度转变为分块矩阵粒度。
  • Triton适合GPU设备的局部缓存。
  • 传统的写法使用三重循环。
🏷️

标签

➡️

继续阅读