SGD 噪声的蝴蝶效应:行为克隆和自回归中的误差放大
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
研究发现,小批量随机梯度下降噪声会导致长时间跨度奖励出现尖锐振荡,但迭代的指数移动平均在减轻梯度方差放大方面非常有效。
🎯
关键要点
- 研究探讨了深度神经网络行为克隆训练的不稳定性。
- 小批量随机梯度下降更新导致长时间跨度奖励出现尖锐振荡。
- 这些振荡源于小批量随机梯度下降噪声通过不稳定闭环动态的传播。
- 随机梯度下降噪声在单步行动预测中无害,但在长时间跨度中会导致误差累积。
- 梯度方差放大是导致长时间跨度奖励振荡的主要原因。
- 许多标准缓解技术无法减轻梯度方差放大。
- 迭代的指数移动平均在减轻梯度方差放大方面非常有效。
- 研究展示了在连续控制和自回归语言生成中梯度方差放大的现象。
- 提供了理论实例,强调迭代的指数移动平均的好处。
- 经典凸模型有助于理解深度学习中迭代平均的益处。
➡️