💡
原文英文,约600词,阅读约需3分钟。
📝
内容提要
本文讨论了基于Triton实现的全交叉熵损失,指出其速度明显低于Pytorch,尽管内存使用更少。通过与gpumode Discord群组的交流,发现环境变量是自制Triton内核的主要原因。作者强调积极反馈在保持良好习惯中的重要性,并分享了通过乒乓球和英语学习获得的积极反馈体验。
🎯
关键要点
- 基于Triton实现的全交叉熵损失速度明显低于Pytorch,尽管内存使用更少。
- 与gpumode Discord群组交流后发现,环境变量是自制Triton内核的主要原因。
- Liger-Kernel是最佳选择,但速度仍低于Pytorch,结果显示3053.16ms对比0.04ms。
- Pytorch比我尝试过的Triton内核快1000倍,这不合理,可能还有其他原因。
- 积极反馈在保持良好习惯中非常重要,尤其是在乒乓球和英语学习方面。
- 通过乒乓球锻炼获得积极反馈,帮助我减肥和增强社交感。
- 计划通过听英语播客和阅读评论来提高英语能力。
➡️