本研究提出了一种受限参数正则化(CPR)方法,通过对单个参数组的统计度量施加上限,避免了显式的标量系数。CPR能够根据不同参数组实现不同的正则化强度,且在运行时没有明显的开销。实验证明CPR在抑制grokking效果方面表现突出,并且始终与或超过传统权重衰减的性能表现一致。
完成下面两步后,将自动完成登录并继续当前操作。