大模型全军覆没,中科院自动化所推出多图数学推理新基准
💡
原文中文,约2600字,阅读约需7分钟。
📝
内容提要
中国科学院自动化所推出的多图数学推理基准MV-MATH被CVPR 2025录用,旨在评估多模态大语言模型在复杂视觉场景中的推理能力。结果显示,主流模型如GPT-4o和Claude-3.5的表现不佳,准确率远低于人类水平,表明多图推理仍需改进。
🎯
关键要点
- 中国科学院自动化所推出的多图数学推理基准MV-MATH被CVPR 2025录用。
- MV-MATH旨在评估多模态大语言模型在复杂视觉场景中的推理能力。
- 主流模型如GPT-4o和Claude-3.5的表现不佳,准确率远低于人类水平。
- MV-MATH包含2009个高质量数学问题,涵盖多个数学领域和难度级别。
- 数据集中的每个问题都结合了多个图像和文本,形成复杂的多视觉场景。
- MV-MATH引入图像相关性特征标签,分为相互依赖集和独立集。
- 实验结果显示,最好的模型Claude-3.5的准确率为33.9%,远低于人类的76.5%。
- 模型在不同数学领域的表现存在差异,尤其在复杂图像理解和推理方面困难较大。
- 在不同难度级别上,模型表现差异明显,简单问题表现较好,困难问题表现大幅下降。
- 图像序列输入的表现优于合并输入,强调了结构化视觉信息的重要性。
- 研究表明,MLLM在复杂多视觉感知与图像交叉理解上仍存在困难,改进空间巨大。
➡️