小红花·文摘

本文评估了多模态大型语言模型的指导能力，并引入了I4基准测试。通过重新注入模块和无标注跨注意力引导的训练策略，实现了在复杂的视觉语言指令中有效处理的新型多模态大型语言模型Cheetah。该模型在I4中的零样本任务上表现出色，并与当前MME基准的最新指导优化模型相比具有竞争力的性能。