对混合专家模型设计选择的实证理解

原文约500字,阅读约需2分钟。发表于:

系统评估了混合专家模型中常见设计选择对验证性能的影响,发现了在令牌和序列层面上不同的影响。我们还提供了经验证据,表明学习路由和冻结、随机初始化的路由之间存在可比较的性能,暗示了学习路由可能并非必需。我们的研究进一步揭示了序列级路由可能导致特定主题的专家专业化不足,与令牌级路由观察到的句法专业化形成对比。

该研究发布了一系列开源的混合专家语言模型,参数范围从650M到34B,训练语料超过1T个标记。研究发现混合专家模型中的路由决策主要基于标记ID,与上下文相关性较小。研究提出了减轻问题并改进混合专家语言模型设计的潜在策略。

相关推荐 去reddit讨论