TVBench:重新设计视频-语言评估
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究推出了TVBench,一个开源的视频选择问答基准,旨在解决现有基准缺乏时间推理能力和过度依赖文本的问题。研究发现,TVBench要求模型具备较强的时间理解能力,大多数现有模型表现接近随机水平,只有Gemini-Pro和Tarsier明显优于基线。
🎯
关键要点
- 本研究推出了TVBench,一个开源的视频选择问答基准。
- TVBench旨在解决现有基准缺乏时间推理能力和过度依赖文本的问题。
- 研究发现,TVBench要求模型具备较强的时间理解能力。
- 大多数现有模型在TVBench上的表现接近随机水平。
- 只有Gemini-Pro和Tarsier在TVBench上明显优于基线。
🏷️
标签
➡️