💡
原文英文,约200词,阅读约需1分钟。
📝
内容提要
SGD-SaI是一种改进的随机梯度下降方法,结合动量和基于信噪比的学习率调整,内存占用仅为AdamW的一半,性能相当或更优,适合训练大型模型,节省多达25GB内存。
🎯
关键要点
- SGD-SaI是一种改进的随机梯度下降方法,结合了动量和基于信噪比的学习率调整。
- SGD-SaI的内存占用仅为AdamW的一半,性能相当或更优。
- 该方法适合训练大型模型,如Transformers、Vision Transformers和大型语言模型。
- SGD-SaI可以为大型模型(如Llama2-7B)节省多达25GB的内存。
➡️