考虑扭矩的动量
📝
内容提要
本研究解决了传统动量优化器在面对大幅度不对齐梯度时可能导致振荡的问题。提出的考虑扭矩的动量(TAM)方法通过引入基于新旧梯度之间角度的阻尼因子,稳定训练过程中的更新方向。实证结果表明,TAM在多种任务中(包括图像分类和大型语言模型微调)相较于传统动量优化器,能够更有效地应对分布变化并提升泛化性能。
➡️
本研究解决了传统动量优化器在面对大幅度不对齐梯度时可能导致振荡的问题。提出的考虑扭矩的动量(TAM)方法通过引入基于新旧梯度之间角度的阻尼因子,稳定训练过程中的更新方向。实证结果表明,TAM在多种任务中(包括图像分类和大型语言模型微调)相较于传统动量优化器,能够更有效地应对分布变化并提升泛化性能。