本研究提出了一种新优化器FOCUS,旨在提升大型语言模型(LLM)的预训练性能。实验结果表明,FOCUS在高噪声环境下优于Signum和Adam,显示出梯度噪声可能是LLM训练中的一个被低估的限制因素。
本文探讨了使用隐式正则化训练深度神经网络的方式,证明了 SGD 最小化了一个与分布式权重后验分布相关的平均势能加一个熵正则化项,但这个势能通常与原始损失函数不同。同时,文章表明 SGD 在经典意义下甚至不会收敛,因为对于深度网络,SGD 的梯度噪声是高度非各向同性的。作者在附录中给出了这些声明的广泛经验验证。
研究表明,梯度噪声尺度能够预测神经网络训练的并行性。复杂任务的梯度噪声较大,未来大批量训练可能促进AI系统的发展,表明神经网络训练可以系统化。
完成下面两步后,将自动完成登录并继续当前操作。