本研究提出了MMVU基准,用于评估基础模型在视频理解中的表现。该基准通过专家标注的问题,推动模型应对复杂推理需求。尽管现有模型有所提升,但仍未达到人类专家水平。
完成下面两步后,将自动完成登录并继续当前操作。