小红花·文摘

本研究提出了SeriesBench基准，旨在解决多模态大语言模型在理解复杂叙事剧集方面的不足。该基准包含105部剧集和28个任务，采用新标注方法和叙事推理框架，显示现有模型在叙事理解上仍面临挑战，并提供了提升性能的路径。