基于不确定性梯度匹配的模型合并
原文中文,约2500字,阅读约需6分钟。发表于: 。通过对不同数据集进行训练的模型进行带权平均化可以提高其性能,但为什么会有效以及何时可能失败?我们通过梯度不匹配将带权平均的不准确性联系起来,并提出了一种基于不确定性的新方案,通过减少不匹配来改善性能。这种联系还揭示了其他方案(如平均化、任务算术和 Fisher 加权平均)中的隐含假设。我们的新方法对大型语言模型和视觉转换器在性能和对超参数的稳健性方面都有一致的改进。
本文研究了不同数据集之间的模型合并,通过带权平均化可以提高性能,但可能会因梯度不匹配而失败。提出了一种基于不确定性的新方案,通过减少不匹配来改善性能。该方法对大型语言模型和视觉转换器都有改进。