GPT-4o不敌Qwen,无一模型及格!UC伯克利港大等提出多模态新基准

💡 原文中文,约2800字,阅读约需7分钟。
📝

内容提要

UC伯克利等机构提出了All-Angles Bench基准,用于评估多模态大语言模型的多视图理解能力。研究显示,现有模型如GPT-4o在多视图推理方面与人类水平存在显著差距,尤其在遮挡和相机位姿估计任务中表现不佳。该基准涵盖90个真实场景,包含2100组问答对,旨在推动多视图理解研究的进展。

🎯

关键要点

  • UC伯克利等机构提出All-Angles Bench基准,用于评估多模态大语言模型的多视图理解能力。

  • 研究显示现有模型如GPT-4o在多视图推理方面与人类水平存在显著差距,尤其在遮挡和相机位姿估计任务中表现不佳。

  • All-Angles Bench涵盖90个真实场景,包含2100组问答对,旨在推动多视图理解研究的进展。

  • 基准测试评估了27个领先的多模态大语言模型,包括Gemini-2.0-Flash、Claude-3.7-Sonnet和GPT-4o。

  • 研究发现多模态大语言模型在遮挡情况下跨视图对应能力较弱,对粗略相机位姿的估计能力较差。

  • 数据集包含六大具有挑战性的任务,考察MLLMs对3D场景的理解能力。

  • 研究团队通过人工标注和交叉检查确保问题的清晰度和正确性。

  • 多模态大语言模型在成对问答中的不一致性较高,表明其多视图理解能力较弱。

  • GPT-4o在Relative Distance任务上的不一致性得分最高,显示其在处理方向变化时存在困难。

  • 多模态大语言模型在跨视角整合信息时表现不佳,尤其在部分可见情况下。

  • 研究表明,仅靠优化提示词不足以提升多视图理解能力,需要专门的多视图训练。

延伸问答

All-Angles Bench基准的主要目的是什么?

All-Angles Bench基准旨在评估多模态大语言模型的多视图理解能力,推动相关研究进展。

GPT-4o在多视图推理方面的表现如何?

GPT-4o在多视图推理方面与人类水平存在显著差距,尤其在遮挡和相机位姿估计任务中表现不佳。

All-Angles Bench包含哪些任务?

该基准包含六大任务:Counting、Attribute Identification、Relative Distance、Relative Direction、Object Manipulation和Camera Pose Estimation。

多模态大语言模型在遮挡情况下的表现如何?

多模态大语言模型在遮挡情况下跨视图对应能力较弱,难以整合信息。

研究团队如何确保问题的清晰度和正确性?

研究团队通过人工标注和交叉检查的方法确保问题的清晰度、正确性和相关性。

多模态大语言模型在成对问答中的不一致性表现如何?

多模态大语言模型在成对问答中的不一致性较高,表明其多视图理解能力较弱。

➡️

继续阅读