多模态大型语言模型在短视频理解方面进展显著,但在长视频理解任务上表现不佳。研究人员推出了专门用于长视频理解的基准测试集LVBench,旨在挑战模型的长期记忆和扩展理解能力。通过LVBench,研究人员希望推动更先进的模型的发展,以满足长视频理解的复杂性。
完成下面两步后,将自动完成登录并继续当前操作。