一次梯度下降后两层网络中特征学习的渐近性
原文中文,约300字,阅读约需1分钟。发表于: 。通过连接非线性尖峰矩阵模型和高斯普遍性的最新进展,我们确切描述了两层神经网络在高维极限中的泛化误差,其中样本数 (n)、宽度 (p) 和输入维度 (d) 以相同的速度增长,同时阐明了数据适应对网络在梯度方向高效学习非线性函数的重要性,而在初始化阶段只能表示线性函数。据我们所知,我们的结果是首次对两层神经网络在大学习率区间 (η=Θ_d (d))...
研究者通过连接非线性尖峰矩阵模型和高斯普遍性的最新进展,对两层神经网络在高维极限中的泛化误差进行了描述,并强调了数据适应对网络学习非线性函数的重要性。这是首次对两层神经网络在大学习率区间中的特征学习对泛化的影响进行严格描述。