机器之心 ·

这届出题太难了！新基准让多模态模型集体自闭，GPT-4o都是零分

💡 原文中文，约3500字，阅读约需9分钟。

📝

内容提要

当前顶尖的LMM在ZeroBench基准测试中表现不佳，20多个模型均得零分。ZeroBench包含100个挑战性问题，考察模型的视觉理解和推理能力，揭示了现有基准的不足。

🎯

🔎

ZeroBench基准测试的设计旨在考察多模态模型的视觉理解和推理能力。其包含的100个问题不仅复杂，还涉及多步骤推理和困难的视觉元素。这种高难度的设计使得现有模型普遍无法应对，反映出当前AI技术在视觉理解方面的局限性。

尽管所有参与的模型在ZeroBench中均未能及格，但表现最好的Gemini 2 Flash的pass@5得分为7%。这表明，即使在极具挑战性的环境下，模型之间的性能差异依然存在，未来的研究可以针对这些差异进行深入分析，以提升模型的能力。

ZeroBench的出现标志着对现有基准测试的重新审视。随着AI技术的发展，传统的测试标准已无法有效评估模型的真实能力。ZeroBench通过引入更具挑战性的问题，推动了多模态模型的进步，同时也为未来的研究提供了新的方向。

❓

ZeroBench基准测试包含100个具有挑战性的全新问题，考察模型的视觉理解和推理能力。

所有模型在ZeroBench中均未能成功挑战，及格率为0%，显示出现有模型在复杂视觉理解和推理上的不足。

ZeroBench的问题设计复杂，涉及多步骤推理和困难视觉元素，确保了题目的挑战性。

评估结果显示，表现最好的模型Gemini 2 Flash的pass@5得分为7%，大多数模型得分为零。

ZeroBench的问题筛选过程包括反馈、初步评估、全面审查和对抗过滤，以确保问题的难度和多样性。

ZeroBench对多模态模型的挑战性很高，许多模型在视觉解读和空间关系理解上存在常见问题。

🏷️