动态专家分配的混合专家模型:DA-MoE
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该论文研究了不同粒度的MoE模型中的路由策略,通过任务级路由在大规模数据集上实验,提取可部署的子网络。实验结果表明,task-MoE在WMT上的表现比token-MoE高1.0 BLEU,保留所有收益并与蒸馏后的student模型推理成本相同。在扩展到200种语言对时,task-MoE提高了推理吞吐量2.6倍。
🎯
关键要点
- 该论文研究了不同粒度的MoE模型中的路由策略。
- 通过任务级路由在WMT和Web规模数据集上进行实验,提取可部署的子网络。
- task-MoE在WMT上的表现比token-MoE高1.0 BLEU。
- task-MoE能够保留所有收益,并与蒸馏后的student模型推理成本相同。
- 扩展到200种语言对时,task-MoE提高了推理吞吐量2.6倍。
➡️