本研究探讨了深度学习中的grokking现象,提出了StableMax激活函数和$ot$Grad训练算法,以解决数值不稳定性问题并提升泛化速度,提供了新的见解。
完成下面两步后,将自动完成登录并继续当前操作。