你为何滚动观察?对可模块化加法滚动观察的理论分析
原文中文,约400字,阅读约需1分钟。发表于: 。我们提出了对 “grokking” 现象的理论解释,即模型在过拟合后长时间泛化的现象,以原始研究的模块加法问题为例。我们展示了在梯度下降的早期阶段,当 “核心区域” 近似存在时,没有置换等变模型能够实现模块加法的小总体误差,除非它观察到至少常数比例的所有可能数据点。然而,最终,模型逃离了核心区域。我们展示了两层二次网络可以在有界...
本文提出了“grokking”现象的理论解释,即模型在过拟合后长时间泛化的现象。作者通过实验证明了在梯度下降的早期阶段,当“核心区域”近似存在时,没有置换等变模型能够实现模块加法的小总体误差。作者还展示了两层二次网络可以在有界l∞范数下达到零训练误差,并且能够以更少的训练数据实现很好的泛化。作者提供了经验证据表明这些网络以及简单的变压器在过拟合后离开核心区域。总之,作者的研究结果支持grokking作为梯度下降在深度网络上从核心行为向极限行为转变的结果。