💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
构建新内核时,收益呈现复合效应。我们的SM100 conv2d仅需约130行特定代码,重用整个matmul基础设施,而CUTLASS的等效内核则需870行,主要是重复matmul内核。这显示了关注点分离与代码重复的区别。
🎯
关键要点
- 构建新内核时,收益呈现复合效应。
- SM100 conv2d仅需约130行特定代码,重用整个matmul基础设施。
- CUTLASS的等效内核需870行,主要是重复matmul内核。
- 关注点分离与代码重复之间存在明显区别。
➡️