基于任务的 MoE 多任务多语言机器翻译
原文中文,约400字,阅读约需1分钟。发表于: 。我们设计了一种新方法,将任务信息与 Mixture-of-experts 模型结合,通过共享的动态任务适配器在不同粒度级别上将任务信息融入模型中。实验证明,相比密集和经典的 Mixture-of-experts 模型,在多任务多语言机器翻译上,我们的方法具有优势。通过任务特定的适配器,我们的模型能够高效地泛化到新任务中。
该论文研究了不同粒度的MoE模型中的路由策略,通过任务级路由在大规模数据集上实验,能够从大型稀疏模型中提取可部署的子网络。实验结果表明,task-MoE在WMT上的表现比token-MoE高1.0 BLEU,且保留了所有收益和推理成本。在扩展到200种语言对时,task-MoE提高了推理吞吐量2.6倍。