密室逃脱成AI新考场,通关率不足50%,暴露空间推理短板丨清华ICCV25

💡 原文中文,约2800字,阅读约需7分钟。
📝

内容提要

清华大学团队提出了EscapeCraft,一个用于评估多模态大模型推理能力的3D密室逃脱环境。研究发现,顶级模型如GPT-4o在复杂任务中的逃脱成功率不足50%,凸显了推理过程的重要性。

🎯

关键要点

  • 清华大学团队提出EscapeCraft,一个用于评估多模态大模型推理能力的3D密室逃脱环境。
  • 研究发现,顶级模型如GPT-4o在复杂任务中的逃脱成功率不足50%。
  • EscapeCraft环境支持自由探索,整合视觉、空间、逻辑等多模态信息。
  • EscapeCraft可扩展到问答、逻辑推理等任务,是一个灵活的评测平台。
  • 研究强调中间推理过程的重要性,设计了多个创新指标来评估模型的推理能力。
  • 评测结果显示,GPT-4o在复杂任务中表现不佳,存在大量视觉感知和推理逻辑错误。
  • 研究评测了多种热门模型,发现国产大模型Doubao 1.5 Pro在简单关卡中表现优异。
  • 模型在空间推理和探索行为方面普遍存在问题,意图与结果一致性低下。

延伸问答

EscapeCraft是什么?

EscapeCraft是清华大学团队提出的一个3D密室逃脱环境,用于评估多模态大模型的推理能力。

顶级模型在EscapeCraft中的表现如何?

研究发现,顶级模型如GPT-4o在复杂任务中的逃脱成功率不足50%。

EscapeCraft如何评估模型的推理能力?

EscapeCraft通过关注模型的探索过程、决策行为和推理路径,设计多个创新指标来评估推理能力。

哪些模型在EscapeCraft中表现优异?

国产大模型Doubao 1.5 Pro在简单关卡中表现优异,逃脱成功率超过其他模型。

EscapeCraft的应用场景有哪些?

EscapeCraft可扩展到问答、逻辑推理、叙述重建等任务,是一个灵活的评测平台。

模型在EscapeCraft中常见的错误有哪些?

模型常见的错误包括视觉感知错误和推理逻辑错误,如误判目标可交互性和动作与意图不符。

➡️

继续阅读