大模型全军覆没,中科院自动化所推出多图数学推理新基准

💡 原文中文,约2600字,阅读约需7分钟。
📝

内容提要

中国科学院自动化所推出的多图数学推理基准MV-MATH被CVPR 2025录用,旨在评估多模态大语言模型在复杂视觉场景中的推理能力。结果显示,主流模型如GPT-4o和Claude-3.5的表现不佳,准确率远低于人类水平,表明多图推理仍需改进。

🎯

关键要点

  • 中国科学院自动化所推出的多图数学推理基准MV-MATH被CVPR 2025录用。
  • MV-MATH旨在评估多模态大语言模型在复杂视觉场景中的推理能力。
  • 主流模型如GPT-4o和Claude-3.5的表现不佳,准确率远低于人类水平。
  • MV-MATH包含2009个高质量数学问题,涵盖多个数学领域和难度级别。
  • 数据集中的每个问题都结合了多个图像和文本,形成复杂的多视觉场景。
  • MV-MATH引入图像相关性特征标签,分为相互依赖集和独立集。
  • 实验结果显示,最好的模型Claude-3.5的准确率为33.9%,远低于人类的76.5%。
  • 模型在不同数学领域的表现存在差异,尤其在复杂图像理解和推理方面困难较大。
  • 在不同难度级别上,模型表现差异明显,简单问题表现较好,困难问题表现大幅下降。
  • 图像序列输入的表现优于合并输入,强调了结构化视觉信息的重要性。
  • 研究表明,MLLM在复杂多视觉感知与图像交叉理解上仍存在困难,改进空间巨大。

延伸问答

MV-MATH基准的主要目的是什么?

MV-MATH基准旨在评估多模态大语言模型在复杂视觉场景中的数学推理能力。

MV-MATH数据集包含多少个数学问题?

MV-MATH数据集包含2009个高质量数学问题。

主流模型在MV-MATH基准上的表现如何?

主流模型如GPT-4o和Claude-3.5的表现不佳,准确率远低于人类水平。

MV-MATH数据集是如何设计的?

MV-MATH数据集结合了多个图像和文本,形成复杂的多视觉场景,并涵盖多个数学领域和难度级别。

在MV-MATH中,模型在不同难度问题上的表现有何差异?

模型在简单问题上表现较好,而在困难问题上表现大幅下降。

MV-MATH引入了哪些新的特征标签?

MV-MATH引入了图像相关性特征标签,分为相互依赖集和独立集。

➡️

继续阅读