本文探讨了神经网络损失函数的结构及其对泛化的影响,提出了“滤波器归一化”方法以可视化损失函数的曲率。研究了网络结构和训练参数对损失景观的影响,并分析了训练动态与损失面的几何形态之间的关系,揭示了深度学习中的不稳定性来源及其对最终损失的敏感性。
完成下面两步后,将自动完成登录并继续当前操作。