JetMoE：以 0.1M 美元达到 Llama2 性能

原文约500字，阅读约需2分钟。发表于：。

JetMoE-8B 是一种高性价比、透明和学术友好的基于 Sparsely-gated Mixture-of-Experts (SMoE) 架构的大型语言模型，仅需要不足 10 万美元的培训成本，拥有 8B 个参数，使用公共数据集和训练代码，能在降低推理计算约 70% 的情况下实现令人瞩目的性能表现，为开放的基础模型的发展提供了透明而鼓励合作的方式。

该研究发布了一系列开源的混合专家语言模型，参数范围从650M到34B，训练语料超过1T个标记。研究发现混合专家模型中的路由决策主要基于标记ID，与上下文相关性较小。研究提出了减轻问题并改进混合专家语言模型设计的潜在策略。