在$μ$P参数化下$L$层无限宽神经网络的全球收敛与丰富特征学习
📝
内容提要
本研究探讨了深度神经网络在特征学习与全球收敛之间的关系,揭示了现有方法的局限。我们提出了一种新的方法,通过使用随机梯度下降(SGD)和最大更新参数化,训练无限宽的$L$层神经网络,以学习与初始值显著不同的线性独立特征,从而确保收敛点为全局最优解。这一发现为深度表示学习提供了新的理论视角。
🏷️
标签
➡️