小红花·文摘

本文探讨了现有模型在视频和语言任务中的局限性，并提出了多个新基准测试（如EgoSchema、MVBench、InfiniBench、E.T.基准和TemporalBench），以评估多模态大型语言模型在长视频理解中的表现。研究表明，现有模型在细粒度时间理解方面与人类存在显著差距，强调了改进的必要性。