小红花·文摘

Mixtral 8x7B是一种基于decoder-only架构的稀疏专家混合网络（MOE）开源大语言模型，具有46.7B的参数量。通过选择两组专家网络进行处理并将其输出累加组合，优化了模型推理的成本。在基准测试中，该模型表现相当于Llama2 70B和GPT-3.5，具有高的使用性价比。本文介绍了在阿里云PAI平台上微调和推理Mixtral 8x7B模型的最佳实践，包括使用PAI-DSW和Swift进行微调，使用Deepspeed进行轻量化微调，以及使用PAI-EAS在线部署和调用模型的方法。