Lory: 全可微的自回归语言模型预训练中的专家混合
原文中文,约500字,阅读约需2分钟。发表于: 。Lory 是一种全可微的混合专家模型架构,通过引入因果段路由策略和基于相似性的数据分批方法,实现了高效的专家融合运算和专家特化,该方法在自回归语言模型的预训练中取得了显著性能提升,在困惑度和多种下游任务上分别达到了 + 13.9% 和 + 1.5%-11.1% 的结果,同时证明了 Lory 的专家能够捕捉领域级别的特化。
该研究发布了一系列开源的混合专家语言模型,参数范围从650M到34B,训练语料超过1T个标记。研究发现混合专家模型中的路由决策主要基于标记ID,与上下文相关性较小。研究提出了减轻问题并改进混合专家语言模型设计的潜在策略。