分支训练 MiX：将专家 LLMs 混合到一个专家混合 LLM 中

原文约500字，阅读约需2分钟。发表于：。

我们研究了训练大型语言模型在多个专业领域（如编码、数学推理和世界知识）中具备能力的高效方法。我们的方法名为 Branch-Train-MiX（BTX），从一个种子模型开始，在高吞吐量和减少通信成本的尴尬地并行训练专家。在专家异步训练后，BTX 将它们的前馈参数作为混合专家（MoE）层的专家团队，并平均剩余参数，接着采用 MoE 微调阶段学习标记级别的路由。BTX 推广了两种特殊情况，Branch-Train-Merge 方法不需要 MoE 微调阶段学习路由，而稀疏升级则省略了专家异步训练阶段。与替代方法相比，BTX 在准确性和效率之间取得了最佳平衡。

该研究发布了一系列开源的混合专家语言模型，参数范围从650M到34B，训练语料超过1T个标记。研究发现混合专家模型中的路由决策主要基于标记ID，与上下文相关性较小。研究提出了减轻问题并改进混合专家语言模型设计的潜在策略。