使用逐步增大的批量大小和衰减学习率的锐度感知最小化算法的收敛性
原文中文,约200字,阅读约需1分钟。发表于: 。本研究解决了深度神经网络模型在训练中寻找平坦局部最小值的能力不足的问题。通过理论分析,论文提出在使用逐步增大的批量大小或衰减学习率的情况下,锐度感知最小化算法(GSAM)能够更有效地收敛,并且数值比较表明,这种方法能比使用恒定批量大小和学习率找到更平坦的局部最小值。
本研究解决了深度神经网络模型在训练中寻找平坦局部最小值的能力不足的问题。通过理论分析,论文提出了锐度感知最小化算法(GSAM),在使用逐步增大的批量大小或衰减学习率的情况下,GSAM能够更有效地收敛。数值比较表明,使用GSAM方法能够找到更平坦的局部最小值,相比于使用恒定批量大小和学习率的方法。