TVBench:重新设计视频-语言评估

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究推出了TVBench,一个开源的视频选择问答基准,旨在解决现有基准缺乏时间推理能力和过度依赖文本的问题。研究发现,TVBench要求模型具备较强的时间理解能力,大多数现有模型表现接近随机水平,只有Gemini-Pro和Tarsier明显优于基线。

🎯

关键要点

  • 本研究推出了TVBench,一个开源的视频选择问答基准。
  • TVBench旨在解决现有基准缺乏时间推理能力和过度依赖文本的问题。
  • 研究发现,TVBench要求模型具备较强的时间理解能力。
  • 大多数现有模型在TVBench上的表现接近随机水平。
  • 只有Gemini-Pro和Tarsier在TVBench上明显优于基线。
➡️

继续阅读