高维随机梯度下降与新兴异常特征空间的对齐
原文中文,约400字,阅读约需1分钟。发表于: 。通过随机梯度下降(SGD)和经验 Hessian 和梯度矩阵的谱的联合演化,我们严格地研究了训练动态的联合演化。我们证明,在多类高维混合和单层或两层神经网络的两个典型分类任务中,SGD 轨迹迅速与 Hessian 和梯度矩阵的新出现的低秩异常特征空间对齐。此外,在多层设置中,这种对齐是逐层进行的,最后一层的异常特征空间在训练过程中发生变化,并在 SGD...
该研究使用随机梯度下降和经验Hessian和梯度矩阵的谱的联合演化,研究了训练动态的联合演化。研究证明,在多类高维混合和单层或两层神经网络的两个典型分类任务中,SGD轨迹迅速与Hessian和梯度矩阵的新出现的低秩异常特征空间对齐。这些结果证实了过去十年中关于过参数化网络在训练过程中Hessian和信息矩阵的谱的广泛数值研究中出现的一些丰富预测。