本文提出了一个新的基准,用于评估多模态大型语言模型在解谜方面的表现,包含333个图像类文字游戏示例。研究发现,尽管GPT-4V和Gemini Pro表现优异,但准确率仅为24%,显示出推理能力的不足。该基准旨在识别模型在知识和推理方面的缺陷,并强调需要新的策略和数据集以提升解谜能力。
完成下面两步后,将自动完成登录并继续当前操作。