量子位 ·

GPT-4o能拼好乐高吗？首个多步空间推理评测基准：闭源模型领跑

💡 原文中文，约4400字，阅读约需11分钟。

📝

内容提要

上海AI实验室推出LEGO-Puzzles基准，评估多模态大模型的多步空间推理能力。研究表明，闭源模型如GPT-4o优于开源模型，但仍远不及人类。复杂空间任务中，模型的推理能力显著下降，尤其在多步推理方面。

🎯

🔎

LEGO-Puzzles基准揭示了多模态大模型在多步推理任务中的显著不足。尽管GPT-4o在单步推理中表现尚可，但在多步推理时准确率急剧下降，显示出模型在处理复杂逻辑时的脆弱性。这一现象提示研究者在设计更复杂的推理任务时需谨慎，避免过度依赖现有模型的能力。

评测结果显示，闭源模型如GPT-4o在多步空间推理任务中明显优于开源模型。这一差距不仅反映了技术的成熟度，也可能影响未来模型的开发方向。开源模型在空间推理方面的短板，提示开发者需加强对三维结构理解和多步推理能力的研究，以缩小与闭源模型的差距。

实验表明，人类在LEGO-Puzzles-Lite子集中的表现远超模型，平均准确率达到93.6%。这一结果强调了当前多模态大模型在空间推理能力上的局限性，尤其是在复杂任务中。未来的研究应关注如何提升模型的推理能力，以更好地模拟人类的认知过程。

❓

LEGO-Puzzles基准旨在评估多模态大模型在多步空间推理任务中的能力。

GPT-4o在LEGO-Puzzles基准中以57.7%的平均准确率位居榜首，但仍远不及人类的93.6%。

LEGO-Puzzles基准通过收集开源LEGO项目源文件，利用Bricklink软件生成多视角图像，并自动生成任务样本。

闭源模型普遍优于开源模型，GPT-4o的表现明显高于大多数开源模型，后者在某些任务中甚至准确率为0。

随着推理步骤的增加，模型的准确率显著下降，显示出推理衰减问题，尤其在k>2时表现不佳。

LEGO-Puzzles基准通过设计图像生成任务，评估模型在生成目标结构图像时的准确性和指令遵循能力。

🏷️