非神经模型中的现象出现:通过平均梯度外积理解模块算术

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文提出了对“grokking”现象的理论解释,即模型在过拟合后长时间泛化的现象。作者通过实验证明,两层二次网络可以在有界l∞范数下达到零训练误差,并能够以更少的训练数据实现很好的泛化。作者还提供了经验证据表明这些网络以及简单的变压器在过拟合后离开核心区域。作者的研究结果支持梯度下降在深度网络上从核心行为向极限行为转变的观点。

🎯

关键要点

  • 提出了对“grokking”现象的理论解释,即模型在过拟合后长时间泛化的现象。
  • 以模块加法问题为例,展示了在梯度下降早期阶段,模型无法实现小总体误差,除非观察到所有可能数据点。
  • 最终,模型逃离了核心区域。
  • 两层二次网络可以在有界l∞范数下达到零训练误差,并以更少的训练数据实现良好泛化。
  • 通过梯度下降和小l∞正则化可以找到这样的网络。
  • 提供了经验证据表明这些网络和简单的变压器在过拟合后离开核心区域。
  • 研究结果支持grokking作为梯度下降在深度网络上从核心行为向极限行为转变的结果。
➡️

继续阅读