分支训练 MiX:将专家 LLMs 混合到一个专家混合 LLM 中

原文约500字,阅读约需2分钟。发表于:

我们研究了训练大型语言模型在多个专业领域(如编码、数学推理和世界知识)中具备能力的高效方法。我们的方法名为 Branch-Train-MiX(BTX),从一个种子模型开始,在高吞吐量和减少通信成本的尴尬地并行训练专家。在专家异步训练后,BTX 将它们的前馈参数作为混合专家(MoE)层的专家团队,并平均剩余参数,接着采用 MoE 微调阶段学习标记级别的路由。BTX 推广了两种特殊情况,Branch-Train-Merge 方法不需要 MoE 微调阶段学习路由,而稀疏升级则省略了专家异步训练阶段。与替代方法相比,BTX 在准确性和效率之间取得了最佳平衡。

该研究发布了一系列开源的混合专家语言模型,参数范围从650M到34B,训练语料超过1T个标记。研究发现混合专家模型中的路由决策主要基于标记ID,与上下文相关性较小。研究提出了减轻问题并改进混合专家语言模型设计的潜在策略。

相关推荐 去reddit讨论