ING-VP: Multimodal Large Language Models Still Cannot Play Simple Vision-based Games

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了ING-VP基准,以评估多模态大语言模型在空间关系和多步骤推理方面的能力。评估结果显示,表现最佳的模型Claude-3.5 Sonnet的平均准确率仅为3.37%,揭示了当前模型在复杂空间推理中的局限性。

🎯

关键要点

  • 本研究提出了ING-VP基准,旨在评估多模态大语言模型在空间关系和多步骤推理方面的能力。
  • ING-VP基准包含6种游戏和300个关卡,专门设计用于评估模型的空间想象力和多步骤推理能力。
  • 评估结果显示,表现最佳的模型Claude-3.5 Sonnet的平均准确率仅为3.37%。
  • 这一结果揭示了当前多模态大语言模型在复杂空间推理和规划中的局限性。
➡️

继续阅读