TVBench:重新设计视频-语言评估
原文中文,约300字,阅读约需1分钟。发表于: 。本研究针对现有视频-语言基准存在的关键问题,如缺乏时间推理能力和过度依赖文本信息,提出了TVBench这一开放源代码的视频多项选择问答基准。我们的研究表明,TVBench要求模型具备较高的时间理解能力,而大部分最新的视频-语言模型在此基准上的表现接近随机水平,只有Gemini-Pro和Tarsier显著优于这一基线。
本研究推出了TVBench,一个开源的视频选择问答基准,旨在解决现有基准缺乏时间推理能力和过度依赖文本的问题。研究发现,TVBench要求模型具备较强的时间理解能力,大多数现有模型表现接近随机水平,只有Gemini-Pro和Tarsier明显优于基线。