本文介绍了NarrativeTrack,这是评估多模态大语言模型(MLLMs)叙事理解的首个基准。该基准通过细致的实体中心推理,分析视频中的动态叙事。研究发现,现有模型在视觉转变和时间动态中难以稳定追踪实体,揭示了感知基础与时间推理之间的权衡。NarrativeTrack为提升MLLMs的时间基础叙事理解提供了系统框架。
本研究提出了SeriesBench基准,旨在解决多模态大语言模型在理解复杂叙事剧集方面的不足。该基准包含105部剧集和28个任务,采用新标注方法和叙事推理框架,显示现有模型在叙事理解上仍面临挑战,并提供了提升性能的路径。
本文探讨了大型语言模型在视觉故事生成、叙事理解和法律教育中的应用,提出了提高叙述连贯性和情感深度的新方法。研究表明,结合图像和叙述可以创造高质量的故事,大型语言模型在创意写作中作为辅助工具具有潜力。
完成下面两步后,将自动完成登录并继续当前操作。