本文探讨了Grokking现象,即延迟泛化,挑战了传统深度学习模型的训练理解。通过合成数据集,研究了训练与测试数据分布变化对Grokking的影响,发现小样本量与Grokking相关但并非直接原因。
完成下面两步后,将自动完成登录并继续当前操作。