本研究提出了NeuralGrok方法,解决了Grokking现象中的过拟合与泛化问题。通过动态调节梯度成分,显著提升了变换器在复杂算术任务中的泛化能力,并降低了模型复杂性。
本研究探讨了不同优化器对Grokking现象的影响。实验结果表明,缪子优化器显著加速了Grokking的发生,平均周期从153.09减少至102.89,优化器的选择在记忆与泛化的转变中起着关键作用。
本文探讨了Grokking现象,即延迟泛化,挑战了传统深度学习模型的训练理解。通过合成数据集,研究了训练与测试数据分布变化对Grokking的影响,发现小样本量与Grokking相关但并非直接原因。
本研究探讨了深度学习中的grokking现象,提出了StableMax激活函数和$ot$Grad训练算法,以解决数值不稳定性问题并提升泛化速度,提供了新的见解。
Sakana AI推出首位“AI科学家”,生成十篇论文,其中一篇启发人类研究员在arXiv上发表关于神经网络“grokking”现象及复杂性动态的研究。这标志着AI与人类合作的新阶段。
本研究解决了神经网络中模数P的模算术中Grokking行为的控制问题。通过调整激活函数的特性以及模型的深度和宽度,提出了一种新方法,使得模式在增加非线性时变得更加均匀。这些发现可以在P为非素数时用于分解P,并推导出网络泛化能力的度量方式。
本研究提出了一种新方法,通过局部优化规则构建监督学习网络,解决传统神经网络泛化能力的不足。在样本丰富时,该方法实现了完美泛化,并表现出状态突变特性,为重新审视学习网络中的“grokking”过渡提供了新视角。
本文探讨了神经网络中的“grokking”现象,即模型在过拟合后仍能实现泛化。研究发现,深度神经网络在特征学习中经历了记忆、电路形成和清除三个阶段。通过逆向工程和新算法,揭示了卷积神经网络的特征学习能力及其与模块化算术的关系,并提供了加速顿悟现象的迁移学习机制。
完成下面两步后,将自动完成登录并继续当前操作。