LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了

LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了

💡 原文中文,约3000字,阅读约需8分钟。
📝

内容提要

哈工大和鹏城实验室的研究人员提出了DeePEn框架,实现了Training-free的异构大模型集成学习,通过融合多个模型输出的概率分布,实现更深层次的模型协作。实验结果表明,DeePEn在多个公开数据集上取得了显著提升,有效扩展大模型性能边界。

🎯

关键要点

  • 哈工大和鹏城实验室提出了DeePEn框架,实现了Training-free的异构大模型集成学习。
  • DeePEn通过融合多个模型输出的概率分布,实现更深层次的模型协作。
  • 实验结果表明,DeePEn在多个公开数据集上取得了显著提升,有效扩展大模型性能边界。
  • DeePEn解决了异构大模型间的词表差异问题,构建了统一的相对表示空间。
  • 在解码阶段,DeePEn将不同模型的概率分布映射到相对空间进行融合,无需参数训练。
  • 相对表示融合通过加权平均获得聚合的相对表示,使用两种方法确定协作权重。
  • 实验结果显示,不同大模型在不同任务上表现差异,分布融合在各个数据集上均有提升。
  • 随着集成模型数量增加,集成性能先增后减,性能较差的模型会影响整体性能。
  • 集成大模型与专家模型有效提升特定任务性能,尤其在机器翻译任务中表现突出。
➡️

继续阅读