颜水成和袁粒团队提出了新架构MoE++,通过引入“零计算量专家”提升性能和速度。MoE++允许每个Token使用不同数量的FFN专家,降低计算成本,提高复杂Token处理能力。实验表明,MoE++在相同模型大小下性能优于传统MoE,专家吞吐速度提升1.1到2.1倍。模型权重已开源,展示了不同任务中的专家负载分布差异。
完成下面两步后,将自动完成登录并继续当前操作。