SGD 噪声的蝴蝶效应:行为克隆和自回归中的误差放大
原文中文,约500字,阅读约需2分钟。
📝
内容提要
研究发现,小批量随机梯度下降噪声会导致长时间跨度奖励出现尖锐振荡,但迭代的指数移动平均在减轻梯度方差放大方面非常有效。
🎯
关键要点
-
研究探讨了深度神经网络行为克隆训练的不稳定性。
-
小批量随机梯度下降更新导致长时间跨度奖励出现尖锐振荡。
-
这些振荡源于小批量随机梯度下降噪声通过不稳定闭环动态的传播。
-
随机梯度下降噪声在单步行动预测中无害,但在长时间跨度中会导致误差累积。
-
梯度方差放大是导致长时间跨度奖励振荡的主要原因。
-
许多标准缓解技术无法减轻梯度方差放大。
-
迭代的指数移动平均在减轻梯度方差放大方面非常有效。
-
研究展示了在连续控制和自回归语言生成中梯度方差放大的现象。
-
提供了理论实例,强调迭代的指数移动平均的好处。
-
经典凸模型有助于理解深度学习中迭代平均的益处。
🏷️