【Triton 教程】triton.language.advance
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
当M与BLOCK_SIZE_M不匹配时,可通过添加无用值进行处理。执行顺序会影响L2缓存命中率,导致矩阵增量式执行性能下降。按行向量序排列需加载90个元素,而固定单元格分组只需54个,需使用多维指针运算。
🎯
关键要点
- 当M与BLOCK_SIZE_M不匹配时,可以通过添加无用值进行处理。
- 执行顺序会影响L2缓存命中率,导致性能下降。
- 按行向量序排列需加载90个元素,而固定单元格分组只需54个。
- 实现该操作需要使用多维指针运算。
➡️