混合专家模型(MoE)通过动态激活参数提高效率,但训练中存在专家激活不均衡的问题。为解决此问题,引入全局负载均衡(LBL),显著提升模型性能和专家特异性。实验表明,扩大均衡范围可改善模型效果,局部均衡的适度添加也能提高效率。这项研究为MoE模型优化提供了新视角,助力更大规模的模型训练。
完成下面两步后,将自动完成登录并继续当前操作。