本研究提出了NeuralGrok方法,解决了Grokking现象中的过拟合与泛化问题。通过动态调节梯度成分,显著提升了变换器在复杂算术任务中的泛化能力,并降低了模型复杂性。
完成下面两步后,将自动完成登录并继续当前操作。