大模型全军覆没,中科院自动化所推出多图数学推理新基准
💡
原文中文,约2600字,阅读约需7分钟。
📝
内容提要
中国科学院自动化所推出的多图数学推理基准MV-MATH被CVPR 2025录用,旨在评估多模态大语言模型在复杂视觉场景中的推理能力。结果显示,主流模型如GPT-4o和Claude-3.5的表现不佳,准确率远低于人类水平,表明多图推理仍需改进。
🎯
关键要点
- 中国科学院自动化所推出的多图数学推理基准MV-MATH被CVPR 2025录用。
- MV-MATH旨在评估多模态大语言模型在复杂视觉场景中的推理能力。
- 主流模型如GPT-4o和Claude-3.5的表现不佳,准确率远低于人类水平。
- MV-MATH包含2009个高质量数学问题,涵盖多个数学领域和难度级别。
- 数据集中的每个问题都结合了多个图像和文本,形成复杂的多视觉场景。
- MV-MATH引入图像相关性特征标签,分为相互依赖集和独立集。
- 实验结果显示,最好的模型Claude-3.5的准确率为33.9%,远低于人类的76.5%。
- 模型在不同数学领域的表现存在差异,尤其在复杂图像理解和推理方面困难较大。
- 在不同难度级别上,模型表现差异明显,简单问题表现较好,困难问题表现大幅下降。
- 图像序列输入的表现优于合并输入,强调了结构化视觉信息的重要性。
- 研究表明,MLLM在复杂多视觉感知与图像交叉理解上仍存在困难,改进空间巨大。
❓
延伸问答
MV-MATH基准的主要目的是什么?
MV-MATH基准旨在评估多模态大语言模型在复杂视觉场景中的数学推理能力。
MV-MATH数据集包含多少个数学问题?
MV-MATH数据集包含2009个高质量数学问题。
主流模型在MV-MATH基准上的表现如何?
主流模型如GPT-4o和Claude-3.5的表现不佳,准确率远低于人类水平。
MV-MATH数据集是如何设计的?
MV-MATH数据集结合了多个图像和文本,形成复杂的多视觉场景,并涵盖多个数学领域和难度级别。
在MV-MATH中,模型在不同难度问题上的表现有何差异?
模型在简单问题上表现较好,而在困难问题上表现大幅下降。
MV-MATH引入了哪些新的特征标签?
MV-MATH引入了图像相关性特征标签,分为相互依赖集和独立集。
➡️