本文介绍了一系列开源的混合专家语言模型,参数范围从650M到34B,训练语料超过1T标记。研究表明,这些模型在成本效益上优于传统模型,并分析了路由机制的特点。提出的EdgeMoE引擎提升了稀疏LLMs的内存和计算效率,使得在消费者硬件上运行MoE模型成为可能,展示了其在多模态学习中的潜力。
完成下面两步后,将自动完成登录并继续当前操作。