研究发现,激活函数对于表示几何的影响强于预期。Tanh网络倾向于学习反映目标输出结构的表示,而ReLU网络保留了更多关于原始输入结构的信息。通过分析权重空间中的学习动态,发现ReLU的非对称渐近行为导致了Tanh和ReLU非线性网络之间的差异。Tanh网络中的特征神经元倾向于继承任务标签结构,因此在目标输出是低维时,Tanh网络生成的神经表示比采用ReLU非线性的表示更具解耦性。
该研究提出了三种算法,用于将模型单元重新排列以与参考模型对齐,以便在权重空间中合并两个模型。实验结果表明单一流域现象在各种模型架构和数据集中存在,并讨论了模型宽度、训练时间和模式连通性的相关性。同时,该研究证明了单流域理论的一个反例。
完成下面两步后,将自动完成登录并继续当前操作。