本研究推出了TVBench,一个开源的视频选择问答基准,旨在解决现有基准缺乏时间推理能力和过度依赖文本的问题。研究发现,TVBench要求模型具备较强的时间理解能力,大多数现有模型表现接近随机水平,只有Gemini-Pro和Tarsier明显优于基线。
完成下面两步后,将自动完成登录并继续当前操作。