小红花·文摘

多模态大型语言模型在短视频理解方面进展显著，但在长视频理解任务上表现不佳。研究人员推出了专门用于长视频理解的基准测试集LVBench，旨在挑战模型的长期记忆和扩展理解能力。通过LVBench，研究人员希望推动更先进的模型的发展，以满足长视频理解的复杂性。