小红花·文摘

该论文探讨了不同粒度的MoE模型路由策略，提出了任务级路由（task-MoE），在多语言机器翻译中优于传统模型。通过动态选择专家，提升了计算效率和模型性能，尤其在复杂任务中表现突出。此外，研究提出了修剪相似专家的方法，提高了参数效率，展示了在自然语言处理任务中的优势。

动态专家分配的混合专家模型：DA-MoE

BriefGPT - AI 论文速递 ·

该论文探讨了专家混合模型中的路由策略，提出了任务级路由（task-MoE），在多语言数据集上表现优于传统模型。研究表明，task-MoE能够有效提取小型可部署子网络，保持高性能并提高推理效率。此外，结合知识蒸馏和专家混合模型，开发了模块化的多语言模型，并提供了开源资源以促进社区发展。

LaDiMo：层级蒸馏启发的专家模型转换

BriefGPT - AI 论文速递 ·

该论文研究了不同粒度的MoE模型中的路由策略，通过任务级路由在大规模数据集上实验，能够从大型稀疏模型中提取更小、可部署的子网络。实验结果显示，task-MoE在WMT上的表现比token-MoE高1.0 BLEU，并且推理成本相同。在扩展到200种语言对时，task-MoE提高了推理吞吐量2.6倍。

利用层间专家亲和性加速混合专家模型推理

BriefGPT - AI 论文速递 ·

该论文研究了不同粒度的MoE模型中的路由策略，通过任务级路由在数据集上进行实验，能够从大型稀疏模型中提取更小、可部署的子网络。实验结果表明，task-MOE在30种语言对上的表现平均比token-MoE高1.0 BLEU，并且能够保留所有收益。同时，当扩展到200种语言对时，task-MoE表现相近，并且提高了推理吞吐量2.6倍。

令牌混合：通过跨样本聚合实现高效的 LLMs

BriefGPT - AI 论文速递 ·

该论文研究了不同粒度的MoE模型中的路由策略，通过任务级路由在大规模数据集上实验，能够从大型稀疏模型中提取可部署的子网络。实验结果表明，task-MoE在WMT上的表现比token-MoE高1.0 BLEU，且保留了所有收益和推理成本。在扩展到200种语言对时，task-MoE提高了推理吞吐量2.6倍。

基于任务的 MoE 多任务多语言机器翻译

BriefGPT - AI 论文速递 ·