通过学习系数量化奇异模型的退化

原文约200字,阅读约需1分钟。

深度神经网络中的退化度由称为学习系数的数量精确量化,本文通过使用随机梯度 Langevin 动力学近似计算具有局部化版本的学习系数,验证了该方法的准确性,并展示了学习系数能够揭示随机优化器对于更或更少退化临界点的引导偏差。

该研究探讨了深度神经网络在学习过程中的动态,特别关注了二元分类问题。研究发现,在非线性架构下,网络学习的分类误差呈现 sigmoid 形状。同时,研究了梯度饱和现象和特征频率对模型收敛速度的影响,以及交叉熵和hinge损失在生成对抗网络训练中的差异。最后,提出并研究了梯度饥饿现象。

二元分类 交叉熵 学习动态 梯度饱和 深度神经网络
相关推荐 去reddit讨论