赋能视觉语言模型来遵循交替视觉语言指令
原文中文,约300字,阅读约需1分钟。发表于: 。综合评估了多模态大型语言模型的指导遵循能力,并引入了 I4 基准测试,提出了一种智能控制知识重新注入模块和无标注跨注意力引导的反事实图像训练策略,从而实现了在复杂的纷繁视觉语言指令中有效处理的新型多模态大型语言模型 Cheetah,达到了 I4 中所有任务的零样本表现的最新水平,并与当前 MME 基准的最新指导优化模型相比具有竞争力的性能。
本文评估了多模态大型语言模型的指导能力,并引入了I4基准测试。通过重新注入模块和无标注跨注意力引导的训练策略,实现了在复杂的视觉语言指令中有效处理的新型多模态大型语言模型Cheetah。该模型在I4中的零样本任务上表现出色,并与当前MME基准的最新指导优化模型相比具有竞争力的性能。