突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力
内容提要
MMBench-Video是一个新的视频理解评测基准,旨在解决现有基准在长视频和复杂任务评估中的不足。该基准涵盖多种视频类型,采用高质量人工标注,评估模型的时序理解能力。通过对多模态大模型的测试,MMBench-Video提高了评估精度,为视频理解研究提供了重要工具。
关键要点
-
MMBench-Video是一个新的视频理解评测基准,旨在解决现有基准在长视频和复杂任务评估中的不足。
-
该基准涵盖多种视频类型,采用高质量人工标注,评估模型的时序理解能力。
-
现有评测基准多注重短视频,难以考察模型的长时序理解能力。
-
MMBench-Video视频时长从30秒到6分钟不等,镜头数多变,避免了过短或过长视频带来的问题。
-
评测涵盖感知与推理的全面挑战,建立了包含26个细粒度能力的综合能力谱系。
-
视频种类丰富,问答语言多样性强,覆盖16个主要领域,问答对的长度和语意丰富度提升。
-
MMBench-Video在标注时给出了详细规则,具有显著较低的时序独立性,能更好考察模型的时序理解能力。
-
实验显示,GPT-4o在视频理解方面表现突出,开源图文多模态大模型整体优于视频语言模型。
-
视频长度和镜头数量被认为是影响模型性能的关键因素,镜头切换频繁会导致模型表现下降。
-
引入字幕信息后,模型在视频理解上的表现显著提升,尤其在长视频任务中。
-
GPT-4具备更为公正和稳定的评分能力,能够更好地与人工评判对齐。
-
MMBench-Video支持在VLMEvalKit中一键评测,适用于多种任务的评估。
-
OpenVLM Video Leaderboard建立了综合视频理解能力评测榜单,持续更新多模态大模型及评测基准。
-
MMBench-Video为研究人员和开发者提供了强大的评估工具,帮助优化视频语言模型的能力。
延伸问答
MMBench-Video的主要目标是什么?
MMBench-Video旨在解决现有基准在长视频和复杂任务评估中的不足,全面评估多模态大模型的视频理解能力。
MMBench-Video如何评估模型的时序理解能力?
MMBench-Video通过高质量人工标注的问答对,考察模型在时间维度上提取信息的能力,具有较低的时序独立性。
MMBench-Video与传统视频问答基准相比有什么优势?
MMBench-Video涵盖长视频和多镜头,提供更丰富的问答对,能够更好地考察模型的时序理解和复杂任务处理能力。
哪些模型在MMBench-Video上表现突出?
在MMBench-Video上,GPT-4o和Gemini-Pro-v1.5表现突出,开源图文多模态大模型整体优于视频语言模型。
视频长度和镜头数量对模型性能的影响是什么?
视频长度和镜头数量是影响模型性能的关键因素,镜头切换频繁会导致模型表现下降,尤其是当镜头超过50个时。
MMBench-Video如何支持评测过程的简化?
MMBench-Video支持在VLMEvalKit中一键评测,简化了大型视觉语言模型的评估过程,无需繁重的数据准备。