当表示对齐时:在表示学习动态中的普适性
原文中文,约400字,阅读约需1分钟。
📝
内容提要
研究发现,激活函数对于表示几何的影响强于预期。Tanh网络倾向于学习反映目标输出结构的表示,而ReLU网络保留了更多关于原始输入结构的信息。通过分析权重空间中的学习动态,发现ReLU的非对称渐近行为导致了Tanh和ReLU非线性网络之间的差异。Tanh网络中的特征神经元倾向于继承任务标签结构,因此在目标输出是低维时,Tanh网络生成的神经表示比采用ReLU非线性的表示更具解耦性。
🎯
关键要点
-
激活函数对表示几何的影响超出预期。
-
Tanh网络倾向于学习目标输出结构的表示。
-
ReLU网络保留了更多关于原始输入结构的信息。
-
Tanh和ReLU网络之间的差异源于ReLU的非对称渐近行为。
-
Tanh网络中的特征神经元倾向于继承任务标签结构。
-
当目标输出是低维时,Tanh网络生成的神经表示更具解耦性。
-
研究揭示了输入输出几何、非线性和学习表示之间的相互作用。
🏷️