密集训练，稀疏推断：重思混合专家语言模型的训练

通过采用密集计算进行训练和稀疏计算进行推理的混合密集与稀疏混合模型 (DS-MoE)，在保持性能的同时实现了强大的计算和参数效率，比标准稀疏 MoE 更具参数效率，在总参数大小和性能方面与密集模型持平，而且计算成本更低。

本文介绍了一种针对大型视觉语言模型的训练策略MoE-tuning，通过构建一个具有巨大数量参数但恒定计算成本的稀疏模型，有效解决多模态学习和模型稀疏性带来的性能退化问题。实验证明，MoE-LLaVA在视觉理解方面具有出色的能力，并且在模型输出的对象幻象基准测试中超越了LLaVA-1.5-13B，在各种视觉理解数据集上表现可与LLaVA-1.5-7B相媲美。通过MoE-LLaVA，我们旨在为稀疏LVLMs建立基准，并为未来开发更高效和有效的多模态学习系统提供有价值的见解。