非可微对神经网络训练的三种影响
原文中文,约400字,阅读约需1分钟。发表于: 。非可微性对神经网络训练过程的三个方面产生了影响。我们首先分析具有 ReLU 激活函数的全连接神经网络,结果显示连续可微的神经网络收敛速度更快。接下来,我们分析 $L_{1}$ 正则化问题,并展示深度学习求解器产生的解即使对于 $L_{1}$ 惩罚的线性模型也是错误和反直觉的。最后,我们分析稳定性边界问题,我们证明所有的凸性非光滑的 Lipschitz...
非可微性对神经网络训练的影响有三个方面:连续可微的网络收敛速度更快,深度学习求解器对$L_{1}$正则化问题的解是错误的,凸性非光滑的Lipschitz连续函数显示不稳定的收敛。研究结果表明,在训练过程中考虑神经网络的非线性是关键。