小红花·文摘

本研究提出了iVISPAR，一个用于评估视觉语言模型（VLMs）在空间推理和视觉对齐能力的交互式多模态基准。结果表明，尽管某些VLM在简单任务中表现良好，但在复杂配置，尤其是3D和文本表达方面仍存在不足。