本文介绍了NarrativeTrack,这是评估多模态大语言模型(MLLMs)叙事理解的首个基准。该基准通过细致的实体中心推理,分析视频中的动态叙事。研究发现,现有模型在视觉转变和时间动态中难以稳定追踪实体,揭示了感知基础与时间推理之间的权衡。NarrativeTrack为提升MLLMs的时间基础叙事理解提供了系统框架。
本研究提出了SeriesBench基准,旨在解决多模态大语言模型在理解复杂叙事剧集方面的不足。该基准包含105部剧集和28个任务,采用新标注方法和叙事推理框架,显示现有模型在叙事理解上仍面临挑战,并提供了提升性能的路径。
完成下面两步后,将自动完成登录并继续当前操作。