SGD 噪声的蝴蝶效应:行为克隆和自回归中的误差放大

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

研究发现,小批量随机梯度下降噪声会导致长时间跨度奖励出现尖锐振荡,但迭代的指数移动平均在减轻梯度方差放大方面非常有效。

➡️

继续阅读