ICML 2024 | 梯度检查点太慢?不降速、省显存,LowMemoryBP大幅提升反向传播显存效率

ICML 2024 | 梯度检查点太慢?不降速、省显存,LowMemoryBP大幅提升反向传播显存效率

💡 原文中文,约2400字,阅读约需6分钟。
📝

内容提要

南开大学研究团队在ICML 2024上发表论文,提出Approx-BP和MS-BP两种反向传播改进策略,可显著减少微调过程中的显存占用。实验结果显示,这两种策略能有效降低Transformer模型微调的峰值显存占用,且不影响训练速度和精度,为显存节省提供新方案。

🎯

关键要点

  • 南开大学研究团队在ICML 2024上发表论文,提出Approx-BP和MS-BP两种反向传播改进策略。
  • 这两种策略显著减少微调过程中的显存占用,不影响训练速度和精度。
  • Approx-BP通过分段线性函数逼近激活函数,降低激活显存占用。
  • MS-BP通过共享激活张量,减少冗余显存使用。
  • 实验结果显示,ViT、LLaMA和RoBERTa的微调峰值显存分别降低了27%、29%和21%。
  • LowMemoryBP方法保持了训练速度,而对比方法Mesa降低了约20%的训练速度。
  • Approx-BP和MS-BP为显存节省提供了新方案,具有重要的理论和实践价值。
➡️

继续阅读