小红花·文摘

该文章介绍了一种新型的多模态大型语言模型Cheetah，通过智能控制知识重新注入模块和无标注跨注意力引导的反事实图像训练策略，实现了在复杂的纷繁视觉语言指令中的有效处理。该模型在I4基准测试中达到了零样本表现的最新水平，并与当前MME基准的最新指导优化模型相比具有竞争力的性能。