通过非线性和数据对称性控制Grokking

📝

内容提要

本研究解决了神经网络中模数P的模算术中Grokking行为的控制问题。通过调整激活函数的特性以及模型的深度和宽度,提出了一种新方法,使得模式在增加非线性时变得更加均匀。这些发现可以在P为非素数时用于分解P,并推导出网络泛化能力的度量方式。

➡️

继续阅读