Q-Bench-Video:视频质量理解的基准测试
原文中文,约400字,阅读约需1分钟。发表于: 。本研究针对大模态模型(LMMs)在视频质量理解方面的不足,通过引入Q-Bench-Video基准,系统评估其识别视频质量的能力。研究采用多样的视频源和新的评估维度,发现LMMs对视频质量的理解存在显著的差距,强调了进一步研究的重要性。
本文介绍了EditVid-QA视频问答基准,涵盖特效、搞笑、网络迷因和游戏四类编辑。研究发现现有的视频LMMs在编辑视频上表现不佳。通过基于Panda-70M/WebVid和TikTok/CapCut视频收集训练集,提升了EditVid-QA的性能。评估中使用GPT-4 judge和关键词过滤来避免“sorry”攻击。数据集仅供学术用途。