任务结构和非线性性共同决定了学习到的表征几何
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
研究发现,激活函数对于网络的学习动态有重要影响。Tanh网络倾向于学习目标输出结构的表示,而ReLU网络保留了更多原始输入结构的信息。通过分析权重空间中的学习动态,发现ReLU的非对称渐近行为导致了Tanh和ReLU网络之间的差异。Tanh网络中的特征神经元继承任务标签结构,而ReLU网络中的特征神经元专门针对不同输入区域。因此,当目标输出是低维时,Tanh网络生成的神经表示比采用ReLU非线性的表示更具解耦性。
🎯
关键要点
- 激活函数对网络学习动态有重要影响。
- Tanh网络倾向于学习目标输出结构的表示。
- ReLU网络保留了更多原始输入结构的信息。
- ReLU的非对称渐近行为导致Tanh和ReLU网络之间的差异。
- Tanh网络中的特征神经元继承任务标签结构。
- ReLU网络中的特征神经元专门针对不同输入区域。
- 当目标输出是低维时,Tanh网络生成的神经表示更具解耦性。
- 研究揭示了输入输出几何、非线性和学习表示之间的相互作用。
➡️