GPT-4o能拼好乐高吗?首个多步空间推理评测基准:闭源模型领跑 多模态大模型的真实“空间智商”究竟如何 上海AI实验室推出LEGO-Puzzles基准,评估多模态大模型的多步空间推理能力。研究表明,闭源模型如GPT-4o优于开源模型,但仍远不及人类。复杂空间任务中,模型的推理能力显著下降,尤其在多步推理方面。 GPT-4o LEGO-Puzzles gpt 多模态大模型 推理能力 空间推理