ING-VP:多模态大语言模型尚无法玩简单的基于视觉的游戏
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了ING-VP基准,用于评估多模态大语言模型在空间想象和多步骤推理方面的能力。通过6种游戏和300个关卡测试,结果显示最优模型Claude-3.5 Sonnet的平均准确率仅为3.37%,揭示了当前模型在复杂空间推理和规划中的局限性。
🎯
关键要点
- 本研究提出了ING-VP基准,用于评估多模态大语言模型的空间想象和多步骤推理能力。
- ING-VP基准包含6种游戏和300个关卡,专门设计来评估模型在空间关系下的多步骤规划能力。
- 评估结果显示,最优模型Claude-3.5 Sonnet的平均准确率仅为3.37%。
- 研究揭示了当前模型在复杂空间推理和规划方面的局限性。
➡️