当表示对齐时:在表示学习动态中的普适性

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

研究发现,激活函数对于表示几何的影响强于预期。Tanh网络倾向于学习反映目标输出结构的表示,而ReLU网络保留了更多关于原始输入结构的信息。通过分析权重空间中的学习动态,发现ReLU的非对称渐近行为导致了Tanh和ReLU非线性网络之间的差异。Tanh网络中的特征神经元倾向于继承任务标签结构,因此在目标输出是低维时,Tanh网络生成的神经表示比采用ReLU非线性的表示更具解耦性。

🎯

关键要点

  • 激活函数对表示几何的影响超出预期。
  • Tanh网络倾向于学习目标输出结构的表示。
  • ReLU网络保留了更多关于原始输入结构的信息。
  • Tanh和ReLU网络之间的差异源于ReLU的非对称渐近行为。
  • Tanh网络中的特征神经元倾向于继承任务标签结构。
  • 当目标输出是低维时,Tanh网络生成的神经表示更具解耦性。
  • 研究揭示了输入输出几何、非线性和学习表示之间的相互作用。
➡️

继续阅读