NeurIPS 2023 | 深入探讨 Weight Decay 的前世今生和隐藏缺陷

💡 原文中文,约5800字,阅读约需14分钟。
📝

内容提要

本文讨论了权重衰减算法Weight Decay的缺点,并介绍了一种名为Scheduled Weight Decay的算法来解决这些问题。Scheduled Weight Decay通过调整权重衰减的强度来抑制梯度范数,改善模型的泛化能力。文章认为Weight Decay的缺点是被忽视的,而Scheduled Weight Decay是一种解决方案,但并非终极答案。

🎯

关键要点

  • Weight Decay 是一种常用的算法,但其缺点被忽视。
  • Scheduled Weight Decay 通过调整权重衰减强度来改善模型的泛化能力。
  • Weight Decay 有三种不同的实现方式,分别是 L2 正则化、Decoupled Weight Decay 和原始 Weight Decay。
  • 第三种 Weight Decay 的效果不如第二种,尤其在训练后期表现出较大的缺点。
  • Weight Decay 的缺点包括导致梯度范数增大,从而影响收敛性和泛化能力。
  • Scheduled Weight Decay 能有效抑制梯度范数,改善模型性能。
  • 研究者认为,Scheduled Weight Decay 不是解决 Weight Decay 所有问题的终极答案,仍需进一步探索。
➡️

继续阅读