AquilaMoE：基于扩展和扩展策略的MoE模型高效训练

本研究解决了大型语言模型预训练过程中资源消耗过大的问题。提出了一种名为AquilaMoE的创新双语Mixture of Experts (MoE)模型，通过两阶段的高效训练方法，显著提升了预训练效率并减少了数据需求。实验结果表明，该模型在持续预训练中性能显著提高，展示了良好的知识传递能力。

本研究介绍了Skywork-MoE的训练方法，使用1460亿参数和16个专家的高性能混合专家大型语言模型。创新技术包括门控逻辑归一化和自适应辅助损失系数。实验结果验证了这些方法的有效性。再利用训练后，模型在广泛的基准测试中表现出强大的性能。

Skywork-MoE 参数实验结果混合专家大型语言模型训练方法