本文探讨了辍学机制在深度学习中的作用,提出将训练视为在高维图中对二进制子网络的随机游走。研究表明,良好泛化的子网络形成低阻抗簇,且数量随网络宽度指数增加,强调了辍学在采样中的重要性。
本研究提出了一种新方法,通过可微分的子网络划分框架和谱模度最大化优化策略,成功模块化三铰螺旋(3HG)结构,为理解大脑连接性提供了重要基础。
本研究探讨了预训练语言模型中的子网络及其对多任务学习的影响,提出了一种权重掩蔽方案以删除特定知识,同时保留语言建模能力。研究发现语言模块化自然形成,稀疏微调可能减少子网络的语言专门化。实证研究表明,结构化记忆的网络在推广任务时表现更佳,且模型大小与性能之间存在关联。这些发现对模型可解释性和多任务学习具有重要意义。
该论文提出了一种简单高效的优化神经网络超参数的方法,采用边缘似然作为优化目标,将训练数据和神经网络模型分片并优化每个分区,最后通过子网络的“训练外样本”损失来优化多种不同类型的超参数。该方法特别适用于联邦学习中优化超参数的情况。
SHARCS是一种自适应推理方法,通过训练路由器将不同难度的输入样本定向到具有不同宽度的子网络,能够泛化到不同的架构,提高效率并且能够在几乎不损失准确性的情况下提供2倍的推理加速。
该论文研究了不同粒度的MoE模型中的路由策略,通过任务级路由在大规模数据集上实验,能够从大型稀疏模型中提取可部署的子网络。实验结果表明,task-MoE在WMT上的表现比token-MoE高1.0 BLEU,且保留了所有收益和推理成本。在扩展到200种语言对时,task-MoE提高了推理吞吐量2.6倍。
完成下面两步后,将自动完成登录并继续当前操作。