MoE-LLaVA:大规模视觉语言模型的专家混合
原文中文,约400字,阅读约需1分钟。发表于: 。本文介绍了一种针对大型视觉语言模型 (LVLMs) 的训练策略 MoE-tuning,通过构建一个具有巨大数量参数但恒定计算成本的稀疏模型,有效解决多模态学习和模型稀疏性带来的性能退化问题。此外,本文还提出了基于 MoE 的稀疏 LVLM 架构 MoE-LLaVA,通过在部署过程中仅激活前 k 个专家,使剩余的专家处于非活跃状态。实验证明,MoE-LLaVA...
本文介绍了MoE-tuning训练策略,解决了大型视觉语言模型的多模态学习和模型稀疏性带来的性能退化问题。实验证明,MoE-LLaVA在视觉理解方面表现出色,并在对象幻象基准测试中超越了LLaVA-1.5-13B,与LLaVA-1.5-7B相媲美。