高维随机梯度下降与新兴异常特征空间的对齐

通过随机梯度下降（SGD）和经验 Hessian 和梯度矩阵的谱的联合演化，我们严格地研究了训练动态的联合演化。我们证明，在多类高维混合和单层或两层神经网络的两个典型分类任务中，SGD 轨迹迅速与 Hessian 和梯度矩阵的新出现的低秩异常特征空间对齐。此外，在多层设置中，这种对齐是逐层进行的，最后一层的异常特征空间在训练过程中发生变化，并在 SGD...

该研究使用随机梯度下降和经验Hessian和梯度矩阵的谱的联合演化，研究了训练动态的联合演化。研究证明，在多类高维混合和单层或两层神经网络的两个典型分类任务中，SGD轨迹迅速与Hessian和梯度矩阵的新出现的低秩异常特征空间对齐。这些结果证实了过去十年中关于过参数化网络在训练过程中Hessian和信息矩阵的谱的广泛数值研究中出现的一些丰富预测。

Hessian 分类任务梯度矩阵神经网络随机梯度下降