小红花·文摘

中国科学院自动化所推出的多图数学推理基准MV-MATH被CVPR 2025录用，旨在评估多模态大语言模型在复杂视觉场景中的推理能力。结果显示，主流模型如GPT-4o和Claude-3.5的表现不佳，准确率远低于人类水平，表明多图推理仍需改进。