小红花·文摘

本文提出了对“grokking”现象的理论解释，即模型在过拟合后长时间泛化的现象。作者通过实验证明，两层二次网络可以在有界l∞范数下达到零训练误差，并能够以更少的训练数据实现很好的泛化。作者还提供了经验证据表明这些网络以及简单的变压器在过拟合后离开核心区域。作者的研究结果支持梯度下降在深度网络上从核心行为向极限行为转变的观点。