层级递归路由器在专家混合中的应用
原文中文,约500字,阅读约需1分钟。发表于: 。本研究解决了当前专家混合模型在参数效率上的不足,尤其是在不同层次之间的独立路由决策中未能利用历史信息的问题。我们提出的层级递归路由器(RMoE)通过引入门控递归单元(GRU)建立层间依赖关系,有效提升了专家选择的准确性和多样性。实验证明,RMoE的模型在性能上优于多种基线模型,显示出其在大规模语言模型中的应用潜力。
该研究发布了一系列开源的混合专家语言模型,参数范围从650M到34B,训练语料超过1T个标记。研究发现混合专家模型中的路由决策主要基于标记ID,可能导致性能下降。为了改进混合专家语言模型设计,提出了减轻问题并改进现有模型的策略。