令牌混合:通过跨样本聚合实现高效的 LLMs

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该论文研究了不同粒度的MoE模型中的路由策略,通过任务级路由在数据集上进行实验,能够从大型稀疏模型中提取更小、可部署的子网络。实验结果表明,task-MOE在30种语言对上的表现平均比token-MoE高1.0 BLEU,并且能够保留所有收益。同时,当扩展到200种语言对时,task-MoE表现相近,并且提高了推理吞吐量2.6倍。

🎯

关键要点

  • 该论文研究了不同粒度的MoE模型中的路由策略。
  • 通过任务级路由(task-MoE)在WMT和Web规模数据集上进行实验。
  • 实验表明能够从大型稀疏模型中提取更小、可部署的子网络。
  • 在30种语言对上,task-MOE的表现平均比token-MoE高1.0 BLEU。
  • task-MoE能够保留所有收益,而token-MoE蒸馏后的模型只能保留32%的BLEU收益。
  • 当扩展到200种语言对时,task-MoE的表现与token-MoE相近,推理吞吐量提高2.6倍。
➡️

继续阅读