💡
原文英文,约600词,阅读约需3分钟。
📝
内容提要
本文讨论了基于Triton实现的全交叉熵损失,指出其速度明显低于Pytorch,尽管内存使用更少。通过与gpumode Discord群组的交流,发现环境变量是自制Triton内核的主要原因。作者强调积极反馈在保持良好习惯中的重要性,并分享了通过乒乓球和英语学习获得的积极反馈体验。
🎯
关键要点
- 基于Triton实现的全交叉熵损失速度明显低于Pytorch,尽管内存使用更少。
- 与gpumode Discord群组交流后发现,环境变量是自制Triton内核的主要原因。
- Liger-Kernel是最佳选择,但速度仍低于Pytorch,结果显示3053.16ms对比0.04ms。
- Pytorch比我尝试过的Triton内核快1000倍,这不合理,可能还有其他原因。
- 积极反馈在保持良好习惯中非常重要,尤其是在乒乓球和英语学习方面。
- 通过乒乓球锻炼获得积极反馈,帮助我减肥和增强社交感。
- 计划通过听英语播客和阅读评论来提高英语能力。
❓
延伸问答
Triton实现的全交叉熵损失与Pytorch相比有什么优势?
Triton实现的全交叉熵损失在内存使用上更少,但速度明显低于Pytorch。
为什么Triton内核的速度低于Pytorch?
Triton内核的速度低于Pytorch可能与环境变量有关,具体原因尚未找到。
Liger-Kernel在Triton中的表现如何?
Liger-Kernel是最佳选择,但其速度仍低于Pytorch,测试结果为3053.16ms对比0.04ms。
如何通过积极反馈来保持良好习惯?
积极反馈可以通过参与乒乓球等活动获得,帮助保持良好习惯并增强社交感。
作者计划如何提高英语能力?
作者计划通过听英语播客和阅读评论来提高英语能力。
Triton全交叉熵损失的内存使用情况如何?
Triton全交叉熵损失的内存使用量为0.51,相较于Pytorch的1.25更少。
➡️