该研究分析了近200种视频基础模型在14个视频任务中的表现,发现图像基础模型在视频理解上表现优异,而多模态模型更具优势。提出了VideoGLUE分数以评估模型有效性,并开发了MVBench基准测试,展示了视频大型语言模型的潜力和应用前景。
完成下面两步后,将自动完成登录并继续当前操作。