欠参数化的学生网络应该复制还是平均教师权重?
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文研究了使用n个神经元的神经网络逼近具有一层隐藏神经元和k个神经元的神经网络的问题,提供了对传统激活函数的非平凡临界点的闭式解,并发现欠参数化网络的最优解具有普遍结构。
🎯
关键要点
- 本文研究了使用n个神经元的神经网络逼近具有一层隐藏神经元和k个神经元的神经网络的问题。
- 通过神经网络可以对任何连续函数进行无限接近的逼近。
- 使用具有n个神经元的神经网络对f*进行逼近可以看作是将欠参数化的'学生'网络与具有k个神经元的'教师'网络进行拟合。
- 提供了对传统激活函数的非平凡临界点的闭式解。
- 对于erf激活函数,梯度流要么收敛到最优的拷贝-平均临界点,要么收敛到每个学生神经元大致拷贝不同的教师神经元的另一个临界点。
- ReLU激活函数也有类似的结果,表明欠参数化网络的最优解具有普遍结构。
➡️