神经网络权重矩阵的 Hessian 特征向量和主成分分析
💡
原文约400字/词,阅读约需1分钟。
📝
内容提要
该研究探讨了深度神经网络的训练和网络参数之间的复杂动力学关系,发现训练网络往往沿着单一方向进行训练,被称为漂移模式。通过损失函数的二次势模型,解释了这种漂移模式,并提出其向潜在值的指数级缓慢衰减。通过奇异值分解,对权重矩阵进行了分解,以实用的方式识别 Hessian 内的关键方向,同时考虑其大小和曲率。最后,提出了一种有效的策略来缓解神经网络在学习新任务时遗忘之前任务知识的挑战。
🎯
关键要点
- 该研究探讨了深度神经网络的训练及其与网络参数之间的复杂动力学关系。
- 训练网络往往沿着单一方向进行,被称为漂移模式。
- 通过损失函数的二次势模型解释了漂移模式,并提出其向潜在值的指数级缓慢衰减。
- 揭示了Hessian特征向量与网络权重之间的相关性,依赖于特征值的大小。
- 通过奇异值分解对权重矩阵进行分解,以识别Hessian内的关键方向,考虑其大小和曲率。
- 发现各层最大的Hessian特征值与整个网络之间的相似性,特别是更大的特征值集中在深层。
- 提出了一种有效的策略来缓解神经网络在学习新任务时遗忘之前任务知识的挑战,适用于不同规模的网络。
➡️