参数与FLOPs:混合专家语言模型的最佳稀疏性扩展规律
This paper was accepted at the Sparsity in LLMs (SLLM): Deep Dive into Mixture of Experts, Quantization, Hardware, and Inference workshop at ICLR 2025. Scaling the capacity of language models has...
研究表明,扩大语言模型的容量可以提升性能,主要通过增加模型参数和计算量来实现。稀疏专家混合模型(MoEs)在不显著增加计算量的情况下扩展参数数量。研究发现,在不同约束条件下,存在最佳稀疏水平,能够提高训练效率和模型性能,从而为MoEs的扩展提供了更深入的理解。
