欠参数化的学生网络应该复制还是平均教师权重?
原文中文,约400字,阅读约需1分钟。发表于: 。通过神经网络可以对任何连续函数进行无限接近的逼近,本文讨论了当函数本身是一个具有一层隐藏神经元和 k 个神经元的神经网络时,使用具有 n 个神经元的神经网络对 f * 进行逼近可以看作是将一个欠参数化的 “学生” 网络与一个具有 k 个神经元的 “教师” 网络进行拟合,提供了对传统激活函数的非平凡临界点的闭式解,并发现对于 erf 激活函数,梯度流要么收敛到最优的拷贝 -...
本文研究了使用n个神经元的神经网络逼近具有一层隐藏神经元和k个神经元的神经网络的问题,提供了对传统激活函数的非平凡临界点的闭式解,并发现欠参数化网络的最优解具有普遍结构。