任务结构和非线性性共同决定了学习到的表征几何
原文中文,约400字,阅读约需1分钟。发表于: 。通过研究具有一个隐藏层的网络的学习动态,我们发现网络的激活函数对于表示几何的影响强于预期:Tanh 网络倾向于学习反映目标输出结构的表示,而 ReLU 网络保留了更多关于原始输入结构的信息。这种差异在广泛的参数化任务中一直存在,我们在这些任务中调节任务输入的几何与任务标签的对齐程度。我们通过分析权重空间中的学习动态,说明了 Tanh 和 ReLU 非线性网络之间的差异是由于 ReLU...
研究发现,激活函数对于网络的学习动态有重要影响。Tanh网络倾向于学习目标输出结构的表示,而ReLU网络保留了更多原始输入结构的信息。通过分析权重空间中的学习动态,发现ReLU的非对称渐近行为导致了Tanh和ReLU网络之间的差异。Tanh网络中的特征神经元继承任务标签结构,而ReLU网络中的特征神经元专门针对不同输入区域。因此,当目标输出是低维时,Tanh网络生成的神经表示比采用ReLU非线性的表示更具解耦性。