视觉语言模型能从模糊空间推理的视觉示例中学习吗？

本研究解决了视觉语言模型（VLM）在学习新视觉空间任务时的局限性，特别是如何仅依靠视觉示例进行学习。提出了新的基准测试Spatial Visual Ambiguity Tasks（SVAT），研究发现现有VLM在零-shot情况下无法有效学习，但通过逐步学习简化数据可以提升其性能。

研究表明，大型语言模型和视觉-语言模型在空间理解和推理上存在不足。评估发现：（1）空间推理对这些模型是挑战；（2）视觉-语言模型表现常不如纯语言模型；（3）多模态模型在有足够文本线索时对视觉信息依赖减少。通过利用视觉和文本冗余可以提升性能，研究旨在改进空间智能，缩小与人类智能的差距。

多模态智能差距空间推理视觉-语言模型语言模型