本文研究多图像视觉问答任务,提出“可视的干草堆”基准来评估模型处理无关图像的能力。我们引入MIRAGE框架,专注于提升LMMs在MIQA任务中的效率和准确性。评估结果显示,MIRAGE在基准测试中表现优于闭源模型,并提高了多阶段方法的效率。
本文介绍了多图像视觉问答(MIQA)任务和新的公共基准“可视的干草堆(VHs)”,并提出了MIRAGE框架来处理LMMs的MIQA挑战。MIRAGE在VHs基准上超过了GPT-4o模型,并实现了高达3.4倍的效率改进。
完成下面两步后,将自动完成登录并继续当前操作。