【Triton 教程】triton.Config
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
当M与BLOCK_SIZE_M不匹配时,可以通过添加无用值来解决。执行顺序会影响L2缓存命中率,矩阵增量执行会降低性能。按行向量序排列需要加载90个元素,而固定单元格分组只需54个元素,需使用多维指针运算。
🎯
关键要点
-
当M与BLOCK_SIZE_M不匹配时,可以通过添加无用值来解决。
-
执行顺序会影响L2缓存命中率。
-
矩阵增量执行会降低性能。
-
按行向量序排列需要加载90个元素,而固定单元格分组只需54个元素。
-
需使用多维指针运算来实现操作。
➡️