本研究提出了NeuralGrok方法,解决了Grokking现象中的过拟合与泛化问题。通过动态调节梯度成分,显著提升了变换器在复杂算术任务中的泛化能力,并降低了模型复杂性。
本研究探讨了不同优化器对Grokking现象的影响。实验结果表明,缪子优化器显著加速了Grokking的发生,平均周期从153.09减少至102.89,优化器的选择在记忆与泛化的转变中起着关键作用。
本文探讨了Grokking现象,即延迟泛化,挑战了传统深度学习模型的训练理解。通过合成数据集,研究了训练与测试数据分布变化对Grokking的影响,发现小样本量与Grokking相关但并非直接原因。
本研究探讨了深度学习中的grokking现象,提出了StableMax激活函数和$ot$Grad训练算法,以解决数值不稳定性问题并提升泛化速度,提供了新的见解。
Sakana AI推出首位“AI科学家”,生成十篇论文,其中一篇启发人类研究员在arXiv上发表关于神经网络“grokking”现象及复杂性动态的研究。这标志着AI与人类合作的新阶段。
本研究解决了神经网络中模数P的模算术中Grokking行为的控制问题。通过调整激活函数的特性以及模型的深度和宽度,提出了一种新方法,使得模式在增加非线性时变得更加均匀。这些发现可以在P为非素数时用于分解P,并推导出网络泛化能力的度量方式。
本研究提出了一种新方法,通过局部优化规则构建监督学习网络,解决传统神经网络泛化能力的不足。在样本丰富时,该方法实现了完美泛化,并表现出状态突变特性,为重新审视学习网络中的“grokking”过渡提供了新视角。
本文提出了对“grokking”现象的理论解释,即模型在过拟合后长时间泛化的现象。作者通过实验证明,两层二次网络可以在有界l∞范数下达到零训练误差,并能够以更少的训练数据实现很好的泛化。作者还提供了经验证据表明这些网络以及简单的变压器在过拟合后离开核心区域。作者的研究结果支持梯度下降在深度网络上从核心行为向极限行为转变的观点。
本文提出了“grokking”现象的理论解释,即模型在过拟合后长时间泛化的现象。作者通过实验证明了在梯度下降的早期阶段,当“核心区域”近似存在时,没有置换等变模型能够实现模块加法的小总体误差。作者还展示了两层二次网络可以在有界l∞范数下达到零训练误差,并且能够以更少的训练数据实现很好的泛化。作者提供了经验证据表明这些网络以及简单的变压器在过拟合后离开核心区域。总之,作者的研究结果支持grokking作为梯度下降在深度网络上从核心行为向极限行为转变的结果。
完成下面两步后,将自动完成登录并继续当前操作。