💡
原文中文,约2400字,阅读约需6分钟。
📝
内容提要
南开大学研究团队在ICML 2024上发表论文,提出Approx-BP和MS-BP两种反向传播改进策略,可显著减少微调过程中的显存占用。实验结果显示,这两种策略能有效降低Transformer模型微调的峰值显存占用,且不影响训练速度和精度,为显存节省提供新方案。
🎯
关键要点
- 南开大学研究团队在ICML 2024上发表论文,提出Approx-BP和MS-BP两种反向传播改进策略。
- 这两种策略显著减少微调过程中的显存占用,不影响训练速度和精度。
- Approx-BP通过分段线性函数逼近激活函数,降低激活显存占用。
- MS-BP通过共享激活张量,减少冗余显存使用。
- 实验结果显示,ViT、LLaMA和RoBERTa的微调峰值显存分别降低了27%、29%和21%。
- LowMemoryBP方法保持了训练速度,而对比方法Mesa降低了约20%的训练速度。
- Approx-BP和MS-BP为显存节省提供了新方案,具有重要的理论和实践价值。
🏷️
标签
➡️