小红花·文摘

本研究探讨了深度学习中的grokking现象，提出了StableMax激活函数和$ot$Grad训练算法，以解决数值不稳定性问题并提升泛化速度，提供了新的见解。