GPT-4o能拼好乐高吗?首个多步空间推理评测基准:闭源模型领跑
💡
原文中文,约4400字,阅读约需11分钟。
📝
内容提要
上海AI实验室推出LEGO-Puzzles基准,评估多模态大模型的多步空间推理能力。研究表明,闭源模型如GPT-4o优于开源模型,但仍远不及人类。复杂空间任务中,模型的推理能力显著下降,尤其在多步推理方面。
🎯
关键要点
- 上海AI实验室推出LEGO-Puzzles基准,评估多模态大模型的多步空间推理能力。
- LEGO-Puzzles基准利用乐高拼搭的结构规则性和空间变化可控性,构建了1100+任务样本。
- 闭源模型如GPT-4o在多步空间推理任务中表现优于开源模型,但仍远不及人类。
- 人类在LEGO-Puzzles-Lite子集中的平均准确率为93.6%,而GPT-4o仅为59.1%。
- 多步推理任务中,模型与人类之间的差距显著,GPT-4o在多步推理中表现不佳。
- LEGO-Puzzles还评估了视觉生成能力,结果显示大多数模型在结构还原方面存在不足。
- 引入Next-k-Step实验,发现大多数模型在多步推理时存在推理衰减问题。
- LEGO-Puzzles为评估多模态大模型在复杂空间推理任务中的能力提供了新的基准和测评路径。
❓
延伸问答
LEGO-Puzzles基准的主要目的是什么?
LEGO-Puzzles基准旨在评估多模态大模型在多步空间推理任务中的能力。
GPT-4o在LEGO-Puzzles基准中的表现如何?
GPT-4o在LEGO-Puzzles基准中以57.7%的平均准确率位居榜首,但仍远不及人类的93.6%。
LEGO-Puzzles基准是如何构建的?
LEGO-Puzzles基准通过收集开源LEGO项目源文件,利用Bricklink软件生成多视角图像,并自动生成任务样本。
闭源模型与开源模型在多步空间推理任务中的表现有何不同?
闭源模型普遍优于开源模型,GPT-4o的表现明显高于大多数开源模型,后者在某些任务中甚至准确率为0。
多步推理任务中模型的表现为何会下降?
随着推理步骤的增加,模型的准确率显著下降,显示出推理衰减问题,尤其在k>2时表现不佳。
LEGO-Puzzles基准如何评估视觉生成能力?
LEGO-Puzzles基准通过设计图像生成任务,评估模型在生成目标结构图像时的准确性和指令遵循能力。
➡️