高维随机梯度下降与新兴异常特征空间的对齐

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该研究使用随机梯度下降和经验Hessian和梯度矩阵的谱的联合演化,研究了训练动态的联合演化。研究证明,在多类高维混合和单层或两层神经网络的两个典型分类任务中,SGD轨迹迅速与Hessian和梯度矩阵的新出现的低秩异常特征空间对齐。这些结果证实了过去十年中关于过参数化网络在训练过程中Hessian和信息矩阵的谱的广泛数值研究中出现的一些丰富预测。

🎯

关键要点

  • 研究使用随机梯度下降(SGD)和经验Hessian与梯度矩阵的谱的联合演化。
  • 证明在多类高维混合和单层或两层神经网络的分类任务中,SGD轨迹与Hessian和梯度矩阵的低秩异常特征空间迅速对齐。
  • 在多层设置中,这种对齐是逐层进行的,最后一层的异常特征空间在训练过程中发生变化。
  • SGD收敛到次优分类器时,最后一层呈现秩亏现象。
  • 研究结果证实了过去十年关于过参数化网络训练过程中Hessian和信息矩阵谱的广泛数值研究中的一些预测。
➡️

继续阅读