量子位 ·

多模态大模型不会画辅助线？最新评估得分：o3仅25.8%，远低于人类82.3% | 清华腾讯斯坦福联合

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

多模态大模型在视觉推理能力评估中表现不佳，o3仅为25.8%，远低于人类的82.3%。新基准测试RBench-V揭示了模型在图像生成和理解方面的不足，强调了改进方向，如多模态思维链等新方法。

🎯

🔎

当前多模态大模型在视觉推理方面的表现不佳，尤其是在需要图像生成的任务中。RBench-V的评估显示，模型在处理几何类问题时往往选择用文字绕过图形，这反映出其对图像信息的理解能力不足。未来的研究需要关注如何提升模型的图像生成能力，以实现更高水平的推理。

RBench-V作为新型基准测试，强调了图像生成在视觉推理中的重要性。这一评估标准的创新之处在于要求模型通过可视化方式进行推理，而不仅仅是文字回答。这种方法可能为未来多模态模型的发展提供新的方向，促使研究者探索更有效的推理机制。

尽管当前主流大模型在多模态推理上存在显著的技术瓶颈，RBench-V的结果也揭示了模型在复杂任务中的认知能力不足。未来的研究应聚焦于构建能够主动生成图像的认知框架，如多模态思维链等新兴方法，以推动大模型向类人智能迈进。

❓

多模态大模型在视觉推理能力评估中表现不佳，o3的得分仅为25.8%，远低于人类的82.3%。

RBench-V基准测试系统性评估了大模型的视觉推理能力，包含803道题目，要求模型通过可视化方式进行推理。

当前主流大模型在复杂多模态推理任务中认知能力严重不足，准确率普遍低于人类水平，且在处理几何类问题时倾向于用文字绕过图形。

开源模型的准确率普遍在8%至10%之间，显示出技术瓶颈和能力缺失。

推动大模型迈向类人智能的关键在于构建能够主动生成图像的认知框架，如多模态思维链和智能体推理等新兴方法。

o3的得分为25.8%，Gemini的得分为20.2%。

🏷️