小红花·文摘

本研究使用稀疏门控专家组技术解决大规模视觉语言模型训练中的挑战，并在等效计算成本下实现最先进性能的潜力。通过对模型解释性的影响和与VLM扩展计算性能之间的折衷，本文为大规模视觉语言模型的扩展提供了洞见，并激发了对MoE在其他多模态机器学习应用中的研究。