Cool-Fusion: 不进行训练即可融合大型语言模型
原文中文,约300字,阅读约需1分钟。发表于: 。通过融合大型语言模型(LLMs)的知识来发挥其互补优势的一种简单而有效的方法是 Cool-Fusion,它不需要任何训练,适用于具有不同词汇的任何一组源 LLMs,并在多个基准数据集上展开了广泛的实验,提高了 3 个强源 LLMs 的准确性达到 8%-17.8%。
本文提出了一种数据无关的知识融合方法,通过合并模型并引导最小化预测差异的权重,将不同训练数据集上的个别模型合并为一个模型,以在所有数据集领域都表现良好并可以推广到域外数据。该方法在电池评估中明显优于基线方法,并且是一种有前途的替代多任务学习的方法,可以提高个别模型的性能。模型合并比训练多任务模型更高效,适用于更广泛的情况。