第19周 Triton 全交叉熵损失

第19周 Triton 全交叉熵损失

💡 原文英文,约600词,阅读约需3分钟。
📝

内容提要

本文讨论了基于Triton实现的全交叉熵损失,指出其速度明显低于Pytorch,尽管内存使用更少。通过与gpumode Discord群组的交流,发现环境变量是自制Triton内核的主要原因。作者强调积极反馈在保持良好习惯中的重要性,并分享了通过乒乓球和英语学习获得的积极反馈体验。

🎯

关键要点

  • 基于Triton实现的全交叉熵损失速度明显低于Pytorch,尽管内存使用更少。
  • 与gpumode Discord群组交流后发现,环境变量是自制Triton内核的主要原因。
  • Liger-Kernel是最佳选择,但速度仍低于Pytorch,结果显示3053.16ms对比0.04ms。
  • Pytorch比我尝试过的Triton内核快1000倍,这不合理,可能还有其他原因。
  • 积极反馈在保持良好习惯中非常重要,尤其是在乒乓球和英语学习方面。
  • 通过乒乓球锻炼获得积极反馈,帮助我减肥和增强社交感。
  • 计划通过听英语播客和阅读评论来提高英语能力。
➡️

继续阅读