【Triton 教程】triton.Config

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

当M与BLOCK_SIZE_M不匹配时,可以通过添加无用值来处理。执行顺序会影响L2缓存命中率,导致矩阵增量执行性能下降。按行向量序排列需要加载90个元素,而分组操作只需54个,需使用多维指针运算。

🎯

关键要点

  • 当M与BLOCK_SIZE_M不匹配时,可以通过添加无用值来处理。
  • 执行顺序会影响L2缓存命中率,导致性能下降。
  • 按行向量序排列需要加载90个元素,而分组操作只需54个。
  • 实现分组操作需要使用多维指针运算。
➡️

继续阅读