高维随机梯度下降与新兴异常特征空间的对齐
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该研究使用随机梯度下降和经验Hessian和梯度矩阵的谱的联合演化,研究了训练动态的联合演化。研究证明,在多类高维混合和单层或两层神经网络的两个典型分类任务中,SGD轨迹迅速与Hessian和梯度矩阵的新出现的低秩异常特征空间对齐。这些结果证实了过去十年中关于过参数化网络在训练过程中Hessian和信息矩阵的谱的广泛数值研究中出现的一些丰富预测。
🎯
关键要点
- 研究使用随机梯度下降(SGD)和经验Hessian与梯度矩阵的谱的联合演化。
- 证明在多类高维混合和单层或两层神经网络的分类任务中,SGD轨迹与Hessian和梯度矩阵的低秩异常特征空间迅速对齐。
- 在多层设置中,这种对齐是逐层进行的,最后一层的异常特征空间在训练过程中发生变化。
- SGD收敛到次优分类器时,最后一层呈现秩亏现象。
- 研究结果证实了过去十年关于过参数化网络训练过程中Hessian和信息矩阵谱的广泛数值研究中的一些预测。
➡️