CAPTURe:通过遮挡物体计数评估视觉语言模型的空间推理能力

📝

内容提要

本研究旨在解决视觉语言模型在处理遮挡物体时的推理能力不足的问题。我们提出了一个新任务CAPTURe,要求模型通过推断被遮挡的模式来计数物体,评估其视觉理解和空间推理能力。研究发现,尽管现代视觉语言模型面临挑战,但人类在这一任务上的表现远远优于模型,表明尚需改进模型在处理遮挡信息时的能力。

🏷️

标签

➡️

继续阅读