BriefGPT - AI 论文速递 ·

Cool-Fusion: 不进行训练即可融合大型语言模型

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

本文探讨了通过知识融合技术提升大型语言模型（LLM）性能的方法，包括模型融合、机器翻译集成和多语言任务应用。研究表明，融合不同领域模型可提高翻译质量和生成能力，提出的UltraFuser框架和Evolver方法在多任务学习中表现优越，设立了新评估标准。

🎯

❓

知识融合技术通过将不同结构和规模的源语言模型融合为目标模型，改善推理、常识与代码生成等能力，从而提升大型语言模型的性能。

UltraFuser框架引入了令牌级别的门控机制和两阶段训练策略，构建了高质量训练数据集UltraChat 2，展现出高性能。

Evolver方法通过进化算法集成不同语言模型的权重，生成新模型并进行评估，从而提升模型性能。

可以通过即时集成方法，将机器翻译模型与大型语言模型结合，从而提高翻译质量，实验表明这种结合能产生更好的翻译结果。

Fusion-Eval评估方法在SummEval数据集上取得了0.96的Spearman相关性，超过了其他评估方法，树立了新的评估标准。

数据无关的知识融合方法通过合并模型在不同数据集上表现良好，且比多任务学习更高效，适用于更广泛的情况。

🏷️