小红花·文摘

UC伯克利等机构提出了All-Angles Bench基准，用于评估多模态大语言模型的多视图理解能力。研究显示，现有模型如GPT-4o在多视图推理方面与人类水平存在显著差距，尤其在遮挡和相机位姿估计任务中表现不佳。该基准涵盖90个真实场景，包含2100组问答对，旨在推动多视图理解研究的进展。