本研究提出了ING-VP基准,用于评估多模态大语言模型在空间想象和多步骤推理方面的能力。通过6种游戏和300个关卡测试,结果显示最优模型Claude-3.5 Sonnet的平均准确率仅为3.37%,揭示了当前模型在复杂空间推理和规划中的局限性。
完成下面两步后,将自动完成登录并继续当前操作。