本文探讨了现有模型在视频和语言任务中的局限性,并提出了多个新基准测试(如EgoSchema、MVBench、InfiniBench、E.T.基准和TemporalBench),以评估多模态大型语言模型在长视频理解中的表现。研究表明,现有模型在细粒度时间理解方面与人类存在显著差距,强调了改进的必要性。
完成下面两步后,将自动完成登录并继续当前操作。