量子位 ·

突破短视频局限！MMBench 团队构建中长视频开放问答评测基准，全面评估多模态大模型视频理解能力

💡 原文中文，约3400字，阅读约需9分钟。

📝

内容提要

MMBench-Video是一个新的视频理解评测基准，旨在解决现有基准在长视频和复杂任务评估中的不足。该基准涵盖多种视频类型，采用高质量人工标注，评估模型的时序理解能力。通过对多模态大模型的测试，MMBench-Video提高了评估精度，为视频理解研究提供了重要工具。

🎯

关键要点

MMBench-Video是一个新的视频理解评测基准，旨在解决现有基准在长视频和复杂任务评估中的不足。
该基准涵盖多种视频类型，采用高质量人工标注，评估模型的时序理解能力。
现有评测基准多注重短视频，难以考察模型的长时序理解能力。
MMBench-Video视频时长从30秒到6分钟不等，镜头数多变，避免了过短或过长视频带来的问题。
评测涵盖感知与推理的全面挑战，建立了包含26个细粒度能力的综合能力谱系。
视频种类丰富，问答语言多样性强，覆盖16个主要领域，问答对的长度和语意丰富度提升。
MMBench-Video在标注时给出了详细规则，具有显著较低的时序独立性，能更好考察模型的时序理解能力。
实验显示，GPT-4o在视频理解方面表现突出，开源图文多模态大模型整体优于视频语言模型。
视频长度和镜头数量被认为是影响模型性能的关键因素，镜头切换频繁会导致模型表现下降。
引入字幕信息后，模型在视频理解上的表现显著提升，尤其在长视频任务中。
GPT-4具备更为公正和稳定的评分能力，能够更好地与人工评判对齐。
MMBench-Video支持在VLMEvalKit中一键评测，适用于多种任务的评估。
OpenVLM Video Leaderboard建立了综合视频理解能力评测榜单，持续更新多模态大模型及评测基准。
MMBench-Video为研究人员和开发者提供了强大的评估工具，帮助优化视频语言模型的能力。

🏷️

继续阅读

泰勒·斯威夫特的深度伪造视频在TikTok上推广诈骗
诈骗者利用AI生成的名人视频（如泰勒·斯威夫特和蕾哈娜）在TikTok上推广不法服务，收集个人信息。这些广告伪装成名人访谈，诱导用户注册虚假的奖励项目。社...
300人团队实现OpenClaw零事故自动化运维全记录
文章介绍了如何在企业中使用AI智能体“龙虾”进行自动化运维。通过安全沙箱和权限管理，龙虾能够高效处理客户问题，提升团队协作和工作效率，同时确保数据安全和隐...
让 LivU 视频聊天在 2026 年广受欢迎的主要功能
到2026年，用户对社交平台的要求提高，Livu视频聊天因其易用性和实时互动而受欢迎。视频聊天提供自然交流方式，减轻传统社交网络压力，帮助用户更快结识新朋...
阴谋论视频创作者迎来黄金时段
白宫记者晚宴后，阴谋论视频创作者在TikTok和YouTube迅速崛起，声称事件是虚假旗帜行动。尽管传统媒体已有报道，这些视频仍吸引大量观众，反映出人们对...
从手游转向单机的第一步，他们做了一款地府题材类银《斩业人》
前天（4月27日），由轮回工作室开发的游戏《斩业人》公布了首支预告片，并且在Steam同步开启了小规模试玩。和近一年看到的国产游戏项目方向不太一样，《斩业...
珍惜2026年还在认真做MMORPG的人
还有谁会这样改技能？尽管一直被玩家们亲切地称作“小吉”，但再过两天，出生于劳动节的吉田直树就将年满53岁。这也是他接手成为《最终幻想14》制作人的第16年...

突破短视频局限！MMBench 团队构建中长视频开放问答评测基准，全面评估多模态大模型视频理解能力

内容提要

关键要点

标签

继续阅读