量子位 ·

大模型全军覆没，中科院自动化所推出多图数学推理新基准

💡 原文中文，约2600字，阅读约需7分钟。

📝

内容提要

中国科学院自动化所推出的多图数学推理基准MV-MATH被CVPR 2025录用，旨在评估多模态大语言模型在复杂视觉场景中的推理能力。结果显示，主流模型如GPT-4o和Claude-3.5的表现不佳，准确率远低于人类水平，表明多图推理仍需改进。

🎯

关键要点

中国科学院自动化所推出的多图数学推理基准MV-MATH被CVPR 2025录用。
MV-MATH旨在评估多模态大语言模型在复杂视觉场景中的推理能力。
主流模型如GPT-4o和Claude-3.5的表现不佳，准确率远低于人类水平。
MV-MATH包含2009个高质量数学问题，涵盖多个数学领域和难度级别。
数据集中的每个问题都结合了多个图像和文本，形成复杂的多视觉场景。
MV-MATH引入图像相关性特征标签，分为相互依赖集和独立集。
实验结果显示，最好的模型Claude-3.5的准确率为33.9%，远低于人类的76.5%。
模型在不同数学领域的表现存在差异，尤其在复杂图像理解和推理方面困难较大。
在不同难度级别上，模型表现差异明显，简单问题表现较好，困难问题表现大幅下降。
图像序列输入的表现优于合并输入，强调了结构化视觉信息的重要性。
研究表明，MLLM在复杂多视觉感知与图像交叉理解上仍存在困难，改进空间巨大。

❓

延伸问答

MV-MATH基准的主要目的是什么？

MV-MATH基准旨在评估多模态大语言模型在复杂视觉场景中的数学推理能力。

MV-MATH数据集包含多少个数学问题？

MV-MATH数据集包含2009个高质量数学问题。

主流模型在MV-MATH基准上的表现如何？

主流模型如GPT-4o和Claude-3.5的表现不佳，准确率远低于人类水平。

MV-MATH数据集是如何设计的？

MV-MATH数据集结合了多个图像和文本，形成复杂的多视觉场景，并涵盖多个数学领域和难度级别。

在MV-MATH中，模型在不同难度问题上的表现有何差异？

模型在简单问题上表现较好，而在困难问题上表现大幅下降。

MV-MATH引入了哪些新的特征标签？

MV-MATH引入了图像相关性特征标签，分为相互依赖集和独立集。

🏷️

标签

Claude-3.5 GPT-4o MV-MATH 中科院多模态大模型推理能力

➡️

继续阅读

Govee可充电智能桌灯降至60美元
Govee可充电智能桌灯现售价59.99美元，支持多种色温和场景，适合户外聚会。JBL Charge 6蓝牙音箱降至79.95美元，具防水功能，适合户外使...
Slack Eliminates SSH in EMR Pipelines, Migrates 700+ Jobs to Rest-Based Architecture
Slack modernized its data platform by replacing SSH based execution in Amazon...
SpaceX的巨额IPO：最新消息
SpaceX计划于2026年6月12日上市，成为公众公司，预计将使埃隆·马斯克成为首位万亿富翁。尽管去年亏损近50亿美元，但公司估值超过1万亿美元，市场潜...
杰夫·贝索斯的AI初创公司旨在打造“通用人工工程师”
亚马逊创始人杰夫·贝索斯的新AI初创公司Prometheus致力于开发“通用人工工程师”，提供用于机器人、药物设计和制造的AI工程工具。该公司最近融资获得...
将Claude Code与本地模型配对
本文讨论了如何在本地使用Claude Code进行编程，强调了本地推理模型的优势，如成本低和无速率限制。介绍了三种推理后端（Ollama、LM Studi...
SpaceX现已上市
SpaceX计划于2026年6月12日在纳斯达克上市，发行价为每股135美元，预计筹集750亿美元，成为历史上最大IPO。马斯克控制85%的投票权，可能成...