LLaVA-MoLE:稀疏的 LoRA 专家混合模型用于缓解指令微调 MLLMs 中的数据冲突
原文中文,约400字,阅读约需1分钟。发表于: 。在多领域图像 - 文本指导数据上进行指导微调是获取多功能多模态大型语言模型(MLLM)的关键,通过创建一组 MLP 层的 LoRA 专家,通过路由函数将每个令牌路由到最佳专家,以适应来自不同领域的令牌的自适应选择,从而解决了多领域指导数据的数据冲突问题,并在混合数据集上获得了持续的性能提升。
本文介绍了一种针对大型视觉语言模型的训练策略MoE-tuning,通过构建一个具有巨大数量参数但恒定计算成本的稀疏模型,有效解决多模态学习和模型稀疏性带来的性能退化问题。实验证明,MoE-LLaVA在视觉理解方面具有出色的能力,并且在模型输出的对象幻象基准测试中超越了LLaVA-1.5-13B,在各种视觉理解数据集上表现可与LLaVA-1.5-7B相媲美。通过MoE-LLaVA,我们旨在为稀疏LVLMs建立基准,并为未来开发更高效和有效的多模态学习系统提供有价值的见解。