这届出题太难了!新基准让多模态模型集体自闭,GPT-4o都是零分

这届出题太难了!新基准让多模态模型集体自闭,GPT-4o都是零分

💡 原文中文,约3500字,阅读约需9分钟。
📝

内容提要

当前顶尖的LMM在ZeroBench基准测试中表现不佳,20多个模型均得零分。ZeroBench包含100个挑战性问题,考察模型的视觉理解和推理能力,揭示了现有基准的不足。

🎯

关键要点

  • 当前顶尖的LMM在ZeroBench基准测试中表现不佳,20多个模型均得零分。

  • ZeroBench包含100个具有挑战性的全新问题,考察模型的视觉理解和推理能力。

  • 许多现有的基准已失去挑战性,ZeroBench的出现打破了这一局面。

  • ZeroBench的问题设计复杂,涉及多步骤推理和困难视觉元素。

  • 研究团队由20多位专家组成,手工定制每道题目以确保难度适中。

  • ZeroBench的问题筛选过程包括反馈、初步评估、全面审查和对抗过滤。

  • 评估结果显示,所有模型在ZeroBench中均未能成功挑战,及格率为0%。

  • 表现最好的模型Gemini 2 Flash的pass@5得分为7%。

  • 子问题的得分显示出模型性能的差异,推理模型在此方面并无明显优势。

  • 错误分析揭示了模型在视觉解读和空间关系理解上的常见问题。

延伸问答

ZeroBench基准测试的主要内容是什么?

ZeroBench基准测试包含100个具有挑战性的全新问题,考察模型的视觉理解和推理能力。

为什么当前的顶尖LMM在ZeroBench中表现不佳?

所有模型在ZeroBench中均未能成功挑战,及格率为0%,显示出现有模型在复杂视觉理解和推理上的不足。

ZeroBench的题目设计有什么特点?

ZeroBench的问题设计复杂,涉及多步骤推理和困难视觉元素,确保了题目的挑战性。

ZeroBench的评估结果显示了什么?

评估结果显示,表现最好的模型Gemini 2 Flash的pass@5得分为7%,大多数模型得分为零。

ZeroBench是如何筛选问题的?

ZeroBench的问题筛选过程包括反馈、初步评估、全面审查和对抗过滤,以确保问题的难度和多样性。

ZeroBench对多模态模型的挑战性如何?

ZeroBench对多模态模型的挑战性很高,许多模型在视觉解读和空间关系理解上存在常见问题。

➡️

继续阅读