小红花·文摘

本文探讨了神经网络损失函数的结构及其对泛化的影响，提出了“滤波器归一化”方法以可视化损失函数的曲率。研究了网络结构和训练参数对损失景观的影响，并分析了训练动态与损失面的几何形态之间的关系，揭示了深度学习中的不稳定性来源及其对最终损失的敏感性。