中国科学院自动化所推出的多图数学推理基准MV-MATH被CVPR 2025录用,旨在评估多模态大语言模型在复杂视觉场景中的推理能力。结果显示,主流模型如GPT-4o和Claude-3.5的表现不佳,准确率远低于人类水平,表明多图推理仍需改进。
完成下面两步后,将自动完成登录并继续当前操作。