深度学习中使用梯度下降法无法逼近极小值
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
该文章解释了浅层神经网络的几何结构,包括隐藏层、斜坡激活函数和L2 Schatten类代价函数。通过使用投影适应训练输入向量的平均值,获得了一个近似优化器。成本函数的精确退化局部最小值与上界相差一个相对误差。该网络度量了输入空间中的一个子空间,并评论了成本函数的全局最小值。
🎯
关键要点
- 文章解释了浅层神经网络的几何结构,包括隐藏层和斜坡激活函数。
- 使用L2 Schatten类代价函数,输入空间为R^M,输出空间为R^Q,训练输入样本大小为N>QM。
- 成本函数的最小值的上界以O(δ_P)的阶数证明,δ_P度量训练输入的信噪比。
- 通过投影适应训练输入向量的平均值,获得了一个近似优化器。
- 在特殊情况下M=Q,明确确定了成本函数的精确退化局部最小值,其与QM得到的上界相差一个相对误差O(δ_P^2)。
- 该网络度量了由x_0,j张成的输入空间R^M中的Q维子空间。
- 对成本函数的全局最小值的特征进行了评论。
➡️