小红花·文摘

本文研究了混合专家（MoE）语言模型的效率，发现其在相同预算下优于密集模型。提出了新架构DeepSeekMoE和无梯度剪枝策略EEP，提升了模型性能和部署效率。通过修剪冗余专家，优化了模型参数，验证了在自然语言任务中的有效性。