Blog on Qwen ·

通过全局负载均衡提升混合专家模型的性能和特异化程度

💡 原文中文，约2100字，阅读约需5分钟。

📝

内容提要

混合专家模型（MoE）通过动态激活参数提高效率，但训练中存在专家激活不均衡的问题。为解决此问题，引入全局负载均衡（LBL），显著提升模型性能和专家特异性。实验表明，扩大均衡范围可改善模型效果，局部均衡的适度添加也能提高效率。这项研究为MoE模型优化提供了新视角，助力更大规模的模型训练。

🎯

关键要点

混合专家模型（MoE）通过动态激活参数提高模型效率，但训练中存在专家激活不均衡的问题。
引入全局负载均衡（LBL）可以显著提升模型性能和专家特异性。
局部负载均衡的实现限制了专家的领域特化，导致模型性能下降。
通过将局部负载均衡转化为全局负载均衡，可以增强专家的特异化。
扩大均衡范围（Balance BSZ）能够稳定提升模型效果，尤其是当范围增大到128以上时。
在主要使用全局均衡的情况下，适度添加局部均衡损失可以提高模型效率，且对模型效果影响不大。
这项研究为MoE模型的优化提供了新视角，有助于训练更大规模的模型。

❓

延伸问答

混合专家模型（MoE）是什么？

混合专家模型（MoE）通过动态激活参数来提高模型效率，允许模型在训练中稀疏地激活部分参数。

全局负载均衡（LBL）如何改善MoE模型的性能？

全局负载均衡（LBL）通过增强专家的特异化，显著提升了模型的性能和效率，解决了专家激活不均衡的问题。

局部负载均衡对模型训练有什么限制？

局部负载均衡会限制专家的领域特化，导致模型性能下降，因为它将所有领域的输入均匀分配给不同的专家。

扩大均衡范围对模型效果有什么影响？

扩大均衡范围（Balance BSZ）能够稳定提升模型效果，尤其是当范围增大到128以上时，模型在Benchmark指标和PPL上都有明显提升。

在使用全局均衡的情况下，添加局部均衡损失有什么好处？

添加少量局部均衡损失可以提高模型的计算效率，同时对模型效果几乎没有影响。

这项研究对未来的MoE模型训练有什么启示？

这项研究为MoE模型的优化提供了新视角，有助于构建更大规模和更有效的模型，尤其是在不同领域的应用中。

🏷️

继续阅读

五月来了：本月16款游戏登陆云端，NVIDIA GeForce RTX 5080性能再升级
本月，GeForce NOW将新增16款游戏，包括《极限竞速：地平线6》和《007：第一光》。Ultimate会员可享受RTX 5080级别的云游戏性能。...
OpenAI的新安全模型仅面向‘关键网络防御者’
OpenAI即将推出新的网络安全模型GPT-5.5-Cyber，首批仅向“可信的网络防御者”发布。CEO萨姆·阿尔特曼表示，此次有限发布旨在增强机构的网络...
2026 年 3 月和 4 月该入手的模型手办
2026年3月和4月的特别作品主要包括《光能使者》系列的光能使者和超级光能使者，以及记录孙悟空和库林修行的龟仙屋，但缺少布尔玛和朗琪，显得不太完整。
DeepSeek识图模式是个新模型？！一手实测在此（没错我被灰度到了）
DeepSeek的识图模式在灰度测试中表现优异，支持快速识别和推理。非思考模式下速度快但准确性需提升；思考模式下推理能力强但耗时较长。该模式有效处理OCR...
游戏性能旗舰最强之选，一加Ace 6至尊版国补到手价2999元起
一加于2026年发布了Ace 6至尊版，搭载天玑9500芯片，专为游戏优化，支持165Hz超高帧率。配备8600mAh电池和120W闪充，具备IP66/I...
本地可跑的隐私检测模型：Privacy Filter 低成本实现高质量 PII 过滤；硬核开源！涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集
Privacy Filter 是 OpenAI 开源的双向标记分类模型，专门用于检测和屏蔽文本中的个人身份信息。该模型基于小型预训练架构，采用高效的片段解码方式。