LEGO Puzzles: How Do Multimodal Large Language Models Perform in Multi-Step Spatial Reasoning?
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了LEGO-Puzzles基准,用于评估多模态大语言模型(MLLMs)在多步空间推理中的表现。结果显示,最强的MLLMs正确率约为50%,而人类参与者的正确率超过90%。
🎯
关键要点
- 本研究提出了LEGO-Puzzles基准,用于评估多模态大语言模型(MLLMs)在多步空间推理中的表现。
- 多步空间推理涉及理解和推理多个顺序步骤中的空间关系,关键应用包括机器人操作、自动导航和自动组装。
- 研究结果显示,最强的MLLMs在空间推理方面的正确率约为50%。
- 相比之下,人类参与者的正确率超过90%。
➡️