小红花·文摘

本文提出了一个新的基准，用于评估多模态大型语言模型在解谜方面的表现，包含333个图像类文字游戏示例。研究发现，尽管GPT-4V和Gemini Pro表现优异，但准确率仅为24%，显示出推理能力的不足。该基准旨在识别模型在知识和推理方面的缺陷，并强调需要新的策略和数据集以提升解谜能力。