量子位 ·

密室逃脱成AI新考场，通关率不足50%，暴露空间推理短板丨清华ICCV25

💡 原文中文，约2800字，阅读约需7分钟。

📝

内容提要

清华大学团队提出了EscapeCraft，一个用于评估多模态大模型推理能力的3D密室逃脱环境。研究发现，顶级模型如GPT-4o在复杂任务中的逃脱成功率不足50%，凸显了推理过程的重要性。

🎯

🔎

EscapeCraft的研究强调了推理过程在多模态大模型中的重要性。尽管模型在某些任务中表现良好，但在复杂的推理任务中，成功率却低于50%。这表明，模型的推理能力仍需进一步提升，尤其是在处理多步骤和空间推理时。

研究发现，国产大模型Doubao 1.5 Pro在简单关卡中表现优异，成功率超过其他热门模型。这一结果显示了国产技术的进步，同时也提示我们在评估模型时，不仅要关注最终结果，还要考虑模型的交互能力和推理过程。

EscapeCraft引入了多种创新指标来评估模型的推理过程，如意图与结果一致性和交互成功率。这些指标不仅关注最终结果，还能深入分析模型在任务执行中的表现，帮助研究者更好地理解模型的优缺点。

❓

EscapeCraft是清华大学团队提出的一个3D密室逃脱环境，用于评估多模态大模型的推理能力。

研究发现，顶级模型如GPT-4o在复杂任务中的逃脱成功率不足50%。

EscapeCraft通过关注模型的探索过程、决策行为和推理路径，设计多个创新指标来评估推理能力。

国产大模型Doubao 1.5 Pro在简单关卡中表现优异，逃脱成功率超过其他模型。

EscapeCraft可扩展到问答、逻辑推理、叙述重建等任务，是一个灵活的评测平台。

模型常见的错误包括视觉感知错误和推理逻辑错误，如误判目标可交互性和动作与意图不符。

🏷️