大模型“取长补短”新思路入选NeurIPS’24,显著优于现有路由方法,南科大港科大出品

💡 原文中文,约2600字,阅读约需7分钟。
📝

内容提要

RouterDC是一种新型路由架构,基于双重对比学习,具有高效性和优越性能。在语言理解和代码生成等任务中,RouterDC显著提高了准确率,并在训练和推理中保持高效。

🎯

关键要点

  • RouterDC是一种新型路由架构,基于双重对比学习,具有高效性和优越性能。
  • RouterDC在语言理解、代码生成和数学推理等任务中显著提高了准确率。
  • RouterDC的参数高效性小于100M,计算高效性不需要对LLM进行梯度回传。
  • LLM路由通过学习一个路由器为每个请求选择最合适的LLM,保持计算高效性。
  • RouterDC包括一个小型语言模型作为编码器和可学习的LLM嵌入。
  • 训练中使用样本-LLM对比损失和样本-样本对比损失来提高模型性能和稳定性。
  • RouterDC在分布内数据集上平均提升了3.98%的性能,优于现有路由方法。
  • 在分布外数据集上,RouterDC的测试准确率显著超过表现最佳的单个LLM。
  • 样本-样本损失的引入提高了训练的稳定性和聚类效果。
  • RouterDC在成本效益方面优于其他现有路由方法。
➡️

继续阅读