多模态大模型不会画辅助线?最新评估得分:o3仅25.8%,远低于人类82.3% | 清华腾讯斯坦福联合

💡 原文中文,约1900字,阅读约需5分钟。
📝

内容提要

多模态大模型在视觉推理能力评估中表现不佳,o3仅为25.8%,远低于人类的82.3%。新基准测试RBench-V揭示了模型在图像生成和理解方面的不足,强调了改进方向,如多模态思维链等新方法。

🎯

关键要点

  • 多模态大模型在视觉推理能力评估中表现不佳,o3得分仅为25.8%。
  • 新基准测试RBench-V系统性评估了大模型的视觉推理能力,强调生成和修改图像内容的重要性。
  • RBench-V包含803道题目,涵盖多个领域,要求模型通过可视化方式进行推理。
  • 当前主流大模型在复杂多模态推理任务中认知能力严重不足,远不及人类的82.3%准确率。
  • 开源模型的准确率普遍在8%至10%之间,显示出技术瓶颈和能力缺失。
  • 大模型在处理几何类问题时倾向于用文字绕过图形,缺乏对图像信息的深层理解。
  • 推动大模型迈向类人智能的关键在于构建能够主动生成图像的认知框架。
  • 多模态思维链和智能体推理等新兴方法可能成为未来的重要路径。

延伸问答

多模态大模型在视觉推理能力评估中表现如何?

多模态大模型在视觉推理能力评估中表现不佳,o3的得分仅为25.8%,远低于人类的82.3%。

RBench-V基准测试的主要内容是什么?

RBench-V基准测试系统性评估了大模型的视觉推理能力,包含803道题目,要求模型通过可视化方式进行推理。

当前主流大模型在复杂多模态推理任务中存在哪些不足?

当前主流大模型在复杂多模态推理任务中认知能力严重不足,准确率普遍低于人类水平,且在处理几何类问题时倾向于用文字绕过图形。

开源模型的准确率如何?

开源模型的准确率普遍在8%至10%之间,显示出技术瓶颈和能力缺失。

推动大模型迈向类人智能的关键是什么?

推动大模型迈向类人智能的关键在于构建能够主动生成图像的认知框架,如多模态思维链和智能体推理等新兴方法。

RBench-V测试中,o3和Gemini的得分分别是多少?

o3的得分为25.8%,Gemini的得分为20.2%。

➡️

继续阅读