MVBench:全面多模式视频理解基准测试
原文中文,约500字,阅读约需2分钟。发表于: 。通过引入全面的多模式视频理解基准 (MVBench),该研究提出了一种新的静态到动态方法,将静态任务转化为动态任务,评估多模式大型语言模型 (MLLMs) 的时间理解能力,并且开发了一种强大的视频 MLLM 基准模型 VideoChat2,检验结果显示 VideoChat2 在 MVBench 上的性能超过其他领先模型 15% 以上。
最近的研究关注生成式多模态大型语言模型(MLLMs),通过引入名为SEED-Bench的基准测试解决了MLLMs生成理解的评估问题。该基准测试包含19K个准确的多项选择问题,涵盖了12个评估维度,包括图像和视频模态的理解。通过评估结果揭示现有MLLMs的局限性,希望SEED-Bench为未来的研究提供见解。将建立并持续维护一个排行榜,为社区提供评估和研究模型能力的平台。