LEGO Puzzles: How Do Multimodal Large Language Models Perform in Multi-Step Spatial Reasoning?

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了LEGO-Puzzles基准,用于评估多模态大语言模型(MLLMs)在多步空间推理中的表现。结果显示,最强的MLLMs正确率约为50%,而人类参与者的正确率超过90%。

🎯

关键要点

  • 本研究提出了LEGO-Puzzles基准,用于评估多模态大语言模型(MLLMs)在多步空间推理中的表现。
  • 多步空间推理涉及理解和推理多个顺序步骤中的空间关系,关键应用包括机器人操作、自动导航和自动组装。
  • 研究结果显示,最强的MLLMs在空间推理方面的正确率约为50%。
  • 相比之下,人类参与者的正确率超过90%。
➡️

继续阅读