小红花·文摘

本研究提出了“多上下文视觉定位”任务，并构建了包含2000个高质量标注样本的MC-Bench数据集，以评估多模态大语言模型（MLLMs）的能力。研究表明，现有MLLMs在多图场景下的表现显著低于人类，推动了相关领域的进一步研究。