本研究提出了SeriesBench基准,旨在解决多模态大语言模型在理解复杂叙事剧集方面的不足。该基准包含105部剧集和28个任务,采用新标注方法和叙事推理框架,显示现有模型在叙事理解上仍面临挑战,并提供了提升性能的路径。
完成下面两步后,将自动完成登录并继续当前操作。