可折叠超网络:可扩展地合并具有不同初始化和任务的变换器
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
神经参数分配搜索(NPAS)通过自动优化参数共享来提升网络权重。我们解决了之前方法中的不一致问题,改进了参数相似性测量,并利用梯度信息识别分歧层。实验显示,我们的方法在ImageNet和CIFAR数据集上提升了性能,能在多个网络架构中高效生成参数,支持高效集成和任意时间预测,使用更少参数实现更好性能。
🎯
关键要点
-
神经参数分配搜索(NPAS)通过自动优化参数共享来提升网络权重。
-
解决了搜索和训练步骤之间共享模式的不一致性问题。
-
改进了共享参数之间相似性的测量方法,考虑了共享权重之间的冲突程度。
-
利用梯度信息识别希望在共享权重之间发生分歧的层。
-
在ImageNet和CIFAR数据集上,NPAS方法始终提升性能。
-
支持使用相同的权重为多种网络架构生成参数。
-
能够支持高效集成和任意时间预测任务。
-
相比完全参数化的集成方法,使用更少17%的参数取得更好的性能。
➡️