FOCUS:一阶集中更新方案
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究提出了一种新优化器FOCUS,旨在提升大型语言模型(LLM)的预训练性能。实验结果表明,FOCUS在高噪声环境下优于Signum和Adam,显示出梯度噪声可能是LLM训练中的一个被低估的限制因素。
🎯
关键要点
- 本研究提出了一种新优化器FOCUS,旨在提升大型语言模型(LLM)的预训练性能。
- FOCUS在高噪声环境下的表现优于Signum和Adam,显示出其稳定性和效率。
- 实验表明FOCUS在训练GPT-2时性能更优,训练速度更快。
- 研究发现梯度噪声可能是LLM训练中的一个被低估的限制因素。
➡️