小红花·文摘

本文介绍了一系列开源的混合专家语言模型，参数范围从650M到34B，训练语料超过1T标记。研究表明，这些模型在成本效益上优于传统模型，并分析了路由机制的特点。提出的EdgeMoE引擎提升了稀疏LLMs的内存和计算效率，使得在消费者硬件上运行MoE模型成为可能，展示了其在多模态学习中的潜力。