JetMoE:以 0.1M 美元达到 Llama2 性能

原文约500字,阅读约需2分钟。发表于:

JetMoE-8B 是一种高性价比、透明和学术友好的基于 Sparsely-gated Mixture-of-Experts (SMoE) 架构的大型语言模型,仅需要不足 10 万美元的培训成本,拥有 8B 个参数,使用公共数据集和训练代码,能在降低推理计算约 70% 的情况下实现令人瞩目的性能表现,为开放的基础模型的发展提供了透明而鼓励合作的方式。

该研究发布了一系列开源的混合专家语言模型,参数范围从650M到34B,训练语料超过1T个标记。研究发现混合专家模型中的路由决策主要基于标记ID,与上下文相关性较小。研究提出了减轻问题并改进混合专家语言模型设计的潜在策略。

相关推荐 去reddit讨论