SWAN:预处理SGD实现与Adam相当的性能并显著减少内存
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出SWAN优化器,通过引入$ ext{GradNorm}$和$ ext{GradWhitening}$操作,解决了Adam优化器的高内存开销问题。在内存占用与SGD相同的情况下,SWAN的性能优于Adam,尤其在LLaMa模型训练中实现了2倍的速度提升。
🎯
关键要点
- 本研究提出SWAN优化器,解决了Adam优化器的高内存开销问题。
- SWAN通过引入GradNorm和GradWhitening操作,优化了内存使用。
- 在内存占用与SGD相同的情况下,SWAN的性能优于Adam。
- SWAN在语言建模任务中表现显著,尤其在训练LLaMa模型时实现了2倍的速度提升。
➡️