小红花·文摘

本研究提出了一种新优化器FOCUS，旨在提升大型语言模型（LLM）的预训练性能。实验结果表明，FOCUS在高噪声环境下优于Signum和Adam，显示出梯度噪声可能是LLM训练中的一个被低估的限制因素。

FOCUS：一阶集中更新方案

BriefGPT - AI 论文速递 ·

本文探讨了基于哈密顿视角的动量方法，包括Nesterov加速梯度法和Polyak重球法的收敛性分析。研究表明，Nesterov方法在训练神经网络时收敛速度优于Heavy Ball方法，并提出了针对梯度噪声情况下的收敛性模型，验证了新算法在稀疏数据环境中的优势。

基于动量的梯度下降方法在李群上的应用

BriefGPT - AI 论文速递 ·

本文探讨了使用隐式正则化训练深度神经网络的方式，证明了 SGD 最小化了一个与分布式权重后验分布相关的平均势能加一个熵正则化项，但这个势能通常与原始损失函数不同。同时，文章表明 SGD 在经典意义下甚至不会收敛，因为对于深度网络，SGD 的梯度噪声是高度非各向同性的。作者在附录中给出了这些声明的广泛经验验证。

高斯过程的随机梯度下降方法

BriefGPT - AI 论文速递 ·

人工智能训练的规模

OpenAI ·