通过几何调整的梯度下降在深度学习中实现全局 L2 最小化
原文中文,约500字,阅读约需2分钟。发表于: 。考虑在深度学习网络中广泛使用的用于最小化 L^2 损失函数的梯度下降流,我们介绍了两个修改版本;一个适用于过参数化设置,另一个适用于欠参数化设置。两者均具有清晰且自然的不变几何意义,考虑到过参数化设置中的拉回向量丛结构和欠参数化设置中的推前向量丛结构。在过参数化情况下,我们证明,只要满足一个秩条件,所有修改后的梯度下降轨道都以统一指数收敛速度将 L^2...
该文章解释了浅层神经网络结构的几何意义和成本函数最小值的上界。通过使用投影适应训练输入向量的平均值,得到了一个近似优化器。特殊情况下,明确确定了成本函数的一个精确退化局部最小值。该网络度量了输入空间中的一个子空间,并对成本函数的全局最小值进行了评论。