本研究提出了iVISPAR,一个用于评估视觉语言模型(VLMs)在空间推理和视觉对齐能力的交互式多模态基准。结果表明,尽管某些VLM在简单任务中表现良好,但在复杂配置,尤其是3D和文本表达方面仍存在不足。
完成下面两步后,将自动完成登录并继续当前操作。