SGD 噪声的蝴蝶效应:行为克隆和自回归中的误差放大

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

研究发现,小批量随机梯度下降噪声会导致长时间跨度奖励出现尖锐振荡,但迭代的指数移动平均在减轻梯度方差放大方面非常有效。

🎯

关键要点

  • 研究探讨了深度神经网络行为克隆训练的不稳定性。
  • 小批量随机梯度下降更新导致长时间跨度奖励出现尖锐振荡。
  • 这些振荡源于小批量随机梯度下降噪声通过不稳定闭环动态的传播。
  • 随机梯度下降噪声在单步行动预测中无害,但在长时间跨度中会导致误差累积。
  • 梯度方差放大是导致长时间跨度奖励振荡的主要原因。
  • 许多标准缓解技术无法减轻梯度方差放大。
  • 迭代的指数移动平均在减轻梯度方差放大方面非常有效。
  • 研究展示了在连续控制和自回归语言生成中梯度方差放大的现象。
  • 提供了理论实例,强调迭代的指数移动平均的好处。
  • 经典凸模型有助于理解深度学习中迭代平均的益处。
➡️

继续阅读