深度学习中使用梯度下降法无法逼近极小值

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

该文章解释了浅层神经网络的几何结构,包括隐藏层、斜坡激活函数和L2 Schatten类代价函数。通过使用投影适应训练输入向量的平均值,获得了一个近似优化器。成本函数的精确退化局部最小值与上界相差一个相对误差。该网络度量了输入空间中的一个子空间,并评论了成本函数的全局最小值。

🎯

关键要点

  • 文章解释了浅层神经网络的几何结构,包括隐藏层和斜坡激活函数。
  • 使用L2 Schatten类代价函数,输入空间为R^M,输出空间为R^Q,训练输入样本大小为N>QM。
  • 成本函数的最小值的上界以O(δ_P)的阶数证明,δ_P度量训练输入的信噪比。
  • 通过投影适应训练输入向量的平均值,获得了一个近似优化器。
  • 在特殊情况下M=Q,明确确定了成本函数的精确退化局部最小值,其与QM得到的上界相差一个相对误差O(δ_P^2)。
  • 该网络度量了由x_0,j张成的输入空间R^M中的Q维子空间。
  • 对成本函数的全局最小值的特征进行了评论。
➡️

继续阅读