你为何滚动观察?对可模块化加法滚动观察的理论分析

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文提出了“grokking”现象的理论解释,即模型在过拟合后长时间泛化的现象。作者通过实验证明了在梯度下降的早期阶段,当“核心区域”近似存在时,没有置换等变模型能够实现模块加法的小总体误差。作者还展示了两层二次网络可以在有界l∞范数下达到零训练误差,并且能够以更少的训练数据实现很好的泛化。作者提供了经验证据表明这些网络以及简单的变压器在过拟合后离开核心区域。总之,作者的研究结果支持grokking作为梯度下降在深度网络上从核心行为向极限行为转变的结果。

🎯

关键要点

  • 本文提出了对'grokking'现象的理论解释,即模型在过拟合后长时间泛化的现象。
  • 在梯度下降的早期阶段,当'核心区域'近似存在时,没有置换等变模型能够实现模块加法的小总体误差。
  • 模型需要观察到至少常数比例的所有可能数据点才能实现小总体误差。
  • 两层二次网络可以在有界l∞范数下达到零训练误差,并且能够以更少的训练数据实现良好的泛化。
  • 通过梯度下降和小l∞正则化可以找到这样的网络。
  • 提供了经验证据表明这些网络以及简单的变压器在过拟合后离开核心区域。
  • 研究结果支持grokking作为梯度下降在深度网络上从核心行为向极限行为转变的结果。
➡️

继续阅读