GPT-4o能拼好乐高吗？首个多步空间推理评测基准：闭源模型领跑

多模态大模型的真实“空间智商”究竟如何

上海AI实验室推出LEGO-Puzzles基准，评估多模态大模型的多步空间推理能力。研究表明，闭源模型如GPT-4o优于开源模型，但仍远不及人类。复杂空间任务中，模型的推理能力显著下降，尤其在多步推理方面。

GPT-4o LEGO-Puzzles gpt 多模态大模型推理能力空间推理