该研究发布了一系列开源的混合专家语言模型,参数范围从650M到34B,训练语料超过1T个标记。研究发现混合专家模型中的路由决策主要基于标记ID,与上下文相关性较小。研究提出了减轻问题并改进混合专家语言模型设计的潜在策略。
完成下面两步后,将自动完成登录并继续当前操作。