MARS:释放方差降低在大规模模型训练中的潜力
发表于: 。本研究解决了在训练深度神经网络和大型语言模型中方差降低方法应用不足的问题。我们提出了一个统一的优化框架MARS,将预处理梯度方法与方差降低结合,从而实现高效的模型训练。实验表明,MARS在训练GPT-2模型时显著超越了传统的AdamW优化器。
本研究解决了在训练深度神经网络和大型语言模型中方差降低方法应用不足的问题。我们提出了一个统一的优化框架MARS,将预处理梯度方法与方差降低结合,从而实现高效的模型训练。实验表明,MARS在训练GPT-2模型时显著超越了传统的AdamW优化器。