量子位 ·

GPT-4o不敌Qwen，无一模型及格！UC伯克利港大等提出多模态新基准

💡 原文中文，约2800字，阅读约需7分钟。

📝

内容提要

UC伯克利等机构提出了All-Angles Bench基准，用于评估多模态大语言模型的多视图理解能力。研究显示，现有模型如GPT-4o在多视图推理方面与人类水平存在显著差距，尤其在遮挡和相机位姿估计任务中表现不佳。该基准涵盖90个真实场景，包含2100组问答对，旨在推动多视图理解研究的进展。

🎯

关键要点

UC伯克利等机构提出All-Angles Bench基准，用于评估多模态大语言模型的多视图理解能力。
研究显示现有模型如GPT-4o在多视图推理方面与人类水平存在显著差距，尤其在遮挡和相机位姿估计任务中表现不佳。
All-Angles Bench涵盖90个真实场景，包含2100组问答对，旨在推动多视图理解研究的进展。
基准测试评估了27个领先的多模态大语言模型，包括Gemini-2.0-Flash、Claude-3.7-Sonnet和GPT-4o。
研究发现多模态大语言模型在遮挡情况下跨视图对应能力较弱，对粗略相机位姿的估计能力较差。
数据集包含六大具有挑战性的任务，考察MLLMs对3D场景的理解能力。
研究团队通过人工标注和交叉检查确保问题的清晰度和正确性。
多模态大语言模型在成对问答中的不一致性较高，表明其多视图理解能力较弱。
GPT-4o在Relative Distance任务上的不一致性得分最高，显示其在处理方向变化时存在困难。
多模态大语言模型在跨视角整合信息时表现不佳，尤其在部分可见情况下。
研究表明，仅靠优化提示词不足以提升多视图理解能力，需要专门的多视图训练。

❓

延伸问答

All-Angles Bench基准的主要目的是什么？

All-Angles Bench基准旨在评估多模态大语言模型的多视图理解能力，推动相关研究进展。

GPT-4o在多视图推理方面的表现如何？

GPT-4o在多视图推理方面与人类水平存在显著差距，尤其在遮挡和相机位姿估计任务中表现不佳。

All-Angles Bench包含哪些任务？

该基准包含六大任务：Counting、Attribute Identification、Relative Distance、Relative Direction、Object Manipulation和Camera Pose Estimation。

多模态大语言模型在遮挡情况下的表现如何？

多模态大语言模型在遮挡情况下跨视图对应能力较弱，难以整合信息。

研究团队如何确保问题的清晰度和正确性？

研究团队通过人工标注和交叉检查的方法确保问题的清晰度、正确性和相关性。

多模态大语言模型在成对问答中的不一致性表现如何？

多模态大语言模型在成对问答中的不一致性较高，表明其多视图理解能力较弱。

🏷️

继续阅读

10万引普林斯顿刘壮最新访谈：架构没那么重要，数据才是王道
刘壮教授在访谈中指出，AI领域的最大瓶颈是记忆，而非能力。他认为架构选择不如数据规模和计算能力重要，现有数据集的多样性低于预期。大语言模型在语言空间有世界...
生数科技认领神秘登顶模型：AI视频公司拿出工业级Demo，跨本体跑通复杂长程任务
生数科技推出的MotuBrain是一款具身智能机器人通用大脑，具备世界模型的预测和行动能力，展现出卓越的物理理解和行动能力。MotuBrain通过统一建模...
解决“打地鼠困境”：一种更智能的去偏见AI视觉模型的方法
WRING是一种新型去偏见技术，通过调整模型中特定坐标的表示方式，减少目标概念的偏见，同时不增加其他领域的偏见。该方法高效且无需重新训练模型，适用于视觉语...
在PyCharm中使用词袋模型
本文介绍了词袋模型（BoW）在自然语言处理中的应用，强调其通过记录词汇出现频率将文本转换为数值向量的有效性。BoW适用于文本分类和情感分析等任务。文章还展...
在线教程丨高性能与易部署兼得，DeepSeek-V4-Flash模型参数284B，简单任务可媲美1.6T Pro版模型
DeepSeek V4 最近发布，分为 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 两个版本。Pro 版本参数达到 1.6T，...
开源版的 GPT Image 2，信息图、连续图文、本地部署全拿下｜商汤SenseNova U1实测
SenseNova U1 是商汤发布的开源多模态模型，具备连续图文生成能力，能够同时生成文字和图片。该模型在信息图生成方面表现出色，采用 NEO-unif...