UC伯克利等机构提出了All-Angles Bench基准,用于评估多模态大语言模型的多视图理解能力。研究显示,现有模型如GPT-4o在多视图推理方面与人类水平存在显著差距,尤其在遮挡和相机位姿估计任务中表现不佳。该基准涵盖90个真实场景,包含2100组问答对,旨在推动多视图理解研究的进展。
完成下面两步后,将自动完成登录并继续当前操作。