小红花·文摘

研究发现，激活函数对于表示几何的影响强于预期。Tanh网络倾向于学习反映目标输出结构的表示，而ReLU网络保留了更多关于原始输入结构的信息。通过分析权重空间中的学习动态，发现ReLU的非对称渐近行为导致了Tanh和ReLU非线性网络之间的差异。Tanh网络中的特征神经元倾向于继承任务标签结构，因此在目标输出是低维时，Tanh网络生成的神经表示比采用ReLU非线性的表示更具解耦性。

当表示对齐时：在表示学习动态中的普适性

BriefGPT - AI 论文速递 ·

该研究提出了三种算法，用于将模型单元重新排列以与参考模型对齐，以便在权重空间中合并两个模型。实验结果表明单一流域现象在各种模型架构和数据集中存在，并讨论了模型宽度、训练时间和模式连通性的相关性。同时，该研究证明了单流域理论的一个反例。

熵 - MCMC：轻松从平坦盆地采样

BriefGPT - AI 论文速递 ·