突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力

💡 原文中文,约3400字,阅读约需9分钟。
📝

内容提要

MMBench-Video是一个新的视频理解评测基准,旨在解决现有基准在长视频和复杂任务评估中的不足。该基准涵盖多种视频类型,采用高质量人工标注,评估模型的时序理解能力。通过对多模态大模型的测试,MMBench-Video提高了评估精度,为视频理解研究提供了重要工具。

🎯

关键要点

  • MMBench-Video是一个新的视频理解评测基准,旨在解决现有基准在长视频和复杂任务评估中的不足。
  • 该基准涵盖多种视频类型,采用高质量人工标注,评估模型的时序理解能力。
  • 现有评测基准多注重短视频,难以考察模型的长时序理解能力。
  • MMBench-Video视频时长从30秒到6分钟不等,镜头数多变,避免了过短或过长视频带来的问题。
  • 评测涵盖感知与推理的全面挑战,建立了包含26个细粒度能力的综合能力谱系。
  • 视频种类丰富,问答语言多样性强,覆盖16个主要领域,问答对的长度和语意丰富度提升。
  • MMBench-Video在标注时给出了详细规则,具有显著较低的时序独立性,能更好考察模型的时序理解能力。
  • 实验显示,GPT-4o在视频理解方面表现突出,开源图文多模态大模型整体优于视频语言模型。
  • 视频长度和镜头数量被认为是影响模型性能的关键因素,镜头切换频繁会导致模型表现下降。
  • 引入字幕信息后,模型在视频理解上的表现显著提升,尤其在长视频任务中。
  • GPT-4具备更为公正和稳定的评分能力,能够更好地与人工评判对齐。
  • MMBench-Video支持在VLMEvalKit中一键评测,适用于多种任务的评估。
  • OpenVLM Video Leaderboard建立了综合视频理解能力评测榜单,持续更新多模态大模型及评测基准。
  • MMBench-Video为研究人员和开发者提供了强大的评估工具,帮助优化视频语言模型的能力。
➡️

继续阅读