小红花·文摘

本研究推出了TVBench，一个开源的视频选择问答基准，旨在解决现有基准缺乏时间推理能力和过度依赖文本的问题。研究发现，TVBench要求模型具备较强的时间理解能力，大多数现有模型表现接近随机水平，只有Gemini-Pro和Tarsier明显优于基线。