深度学习中使用梯度下降法无法逼近极小值
原文中文,约500字,阅读约需2分钟。发表于: 。我们分析了深度学习网络中梯度下降算法的几何方面。具体而言,我们证明了对于欠参数的 ReLU 深度学习网络,Chen-Munoz Ewald 2023 论文中构建性地获得的全局最小成本所对应的权重和偏差通常无法通过梯度下降流逼近。因此,我们得出结论,Chen-Munoz Ewald 2023 论文中介绍的方法与梯度下降方法是不相同的。
该文章解释了浅层神经网络的几何结构,包括隐藏层、斜坡激活函数和L2 Schatten类代价函数。通过使用投影适应训练输入向量的平均值,获得了一个近似优化器。成本函数的精确退化局部最小值与上界相差一个相对误差。该网络度量了输入空间中的一个子空间,并评论了成本函数的全局最小值。