任务结构和非线性性共同决定了学习到的表征几何

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

研究发现,激活函数对于网络的学习动态有重要影响。Tanh网络倾向于学习目标输出结构的表示,而ReLU网络保留了更多原始输入结构的信息。通过分析权重空间中的学习动态,发现ReLU的非对称渐近行为导致了Tanh和ReLU网络之间的差异。Tanh网络中的特征神经元继承任务标签结构,而ReLU网络中的特征神经元专门针对不同输入区域。因此,当目标输出是低维时,Tanh网络生成的神经表示比采用ReLU非线性的表示更具解耦性。

🎯

关键要点

  • 激活函数对网络学习动态有重要影响。
  • Tanh网络倾向于学习目标输出结构的表示。
  • ReLU网络保留了更多原始输入结构的信息。
  • ReLU的非对称渐近行为导致Tanh和ReLU网络之间的差异。
  • Tanh网络中的特征神经元继承任务标签结构。
  • ReLU网络中的特征神经元专门针对不同输入区域。
  • 当目标输出是低维时,Tanh网络生成的神经表示更具解耦性。
  • 研究揭示了输入输出几何、非线性和学习表示之间的相互作用。
➡️

继续阅读