小红花·文摘

本文介绍了多图像视觉问答（MIQA）任务和新的公共基准“可视的干草堆（VHs）”，并提出了MIRAGE框架来处理LMMs的MIQA挑战。MIRAGE在VHs基准上超过了GPT-4o模型，并实现了高达3.4倍的效率改进。