非可微对神经网络训练的三种影响

非可微性对神经网络训练过程的三个方面产生了影响。我们首先分析具有 ReLU 激活函数的全连接神经网络，结果显示连续可微的神经网络收敛速度更快。接下来，我们分析 $L_{1}$ 正则化问题，并展示深度学习求解器产生的解即使对于 $L_{1}$ 惩罚的线性模型也是错误和反直觉的。最后，我们分析稳定性边界问题，我们证明所有的凸性非光滑的 Lipschitz...

非可微性对神经网络训练的影响有三个方面：连续可微的网络收敛速度更快，深度学习求解器对$L_{1}$正则化问题的解是错误的，凸性非光滑的Lipschitz连续函数显示不稳定的收敛。研究结果表明，在训练过程中考虑神经网络的非线性是关键。

收敛速度神经网络神经网络训练连续可微非可微性非线性