深度 ReLU 神经网络中的几何引起的隐式正则化
原文中文,约300字,阅读约需1分钟。发表于: 。神经网络的隐式正则化现象与参数的几何特征密切相关,优化过程中更倾向于具有低批次功能维度的参数。网络的输入也对批次功能维度产生影响,输入的变化会改变批次功能维度的上限,称为可计算全功能维度,其估计收敛迅速且保持接近参数个数,可以与局部可辨识性相对应。与训练输入和测试输入相关的批次功能维度则由几何诱导的隐式正则化所影响。
本文从动态系统的角度对深度学习中隐藏的正则化进行了理论分析,并研究了等效于一些深度卷积神经网络的分层张量因式分解模型中的隐藏正则化。最终证明了该模型会自动进行低阶张量秩的隐藏正则化,实现与卷积网络相应的局部性隐式正则化。通过理论分析神经网络的隐式正则化来增强其性能的潜力。