可折叠超网络：可扩展地合并具有不同初始化和任务的变换器

本研究解决了如何有效合并具有不同初始化和任务的大型变换器模型的问题，通过提出可折叠超网络合并（FS-Merge）方法，优化模型融合过程。FS-Merge 方法在多个设置、任务和模态下表现优异，特别是在数据有限的情况下，显著超越传统合并技术和知识蒸馏方法，展示出其强大的数据效率和适应性。

神经参数分配搜索（NPAS）通过自动优化参数共享来提升网络权重。我们解决了之前方法中的不一致问题，改进了参数相似性测量，并利用梯度信息识别分歧层。实验显示，我们的方法在ImageNet和CIFAR数据集上提升了性能，能在多个网络架构中高效生成参数，支持高效集成和任意时间预测，使用更少参数实现更好性能。

CIFAR ImageNet NPAS 参数共享性能提升