NarrativeTrack:超越画框评估视频语言模型

NarrativeTrack:超越画框评估视频语言模型

💡 原文英文,约500词,阅读约需2分钟。
📝

内容提要

本文介绍了NarrativeTrack,这是评估多模态大语言模型(MLLMs)叙事理解的首个基准。该基准通过细致的实体中心推理,分析视频中的动态叙事。研究发现,现有模型在视觉转变和时间动态中难以稳定追踪实体,揭示了感知基础与时间推理之间的权衡。NarrativeTrack为提升MLLMs的时间基础叙事理解提供了系统框架。

🎯

关键要点

  • NarrativeTrack是评估多模态大语言模型(MLLMs)叙事理解的首个基准。
  • 该基准通过细致的实体中心推理,分析视频中的动态叙事。
  • NarrativeTrack采用组成推理进展(CRP)框架,逐步增加叙事复杂性,考察实体的存在、变化和模糊性。
  • 研究发现,现有模型在视觉转变和时间动态中难以稳定追踪实体,常常在上下文变化中产生错误的身份。
  • 开源的通用MLLMs在感知基础上表现良好,但时间一致性较弱,而视频特定的MLLMs能够捕捉时间上下文,但在实体上下文上存在幻觉。
  • 这些发现揭示了感知基础与时间推理之间的基本权衡,表明叙事理解只有通过两者的整合才能实现。
  • NarrativeTrack为提升MLLMs的时间基础叙事理解提供了系统框架。

延伸问答

什么是NarrativeTrack?

NarrativeTrack是评估多模态大语言模型(MLLMs)叙事理解的首个基准。

NarrativeTrack如何评估视频中的叙事理解?

它通过细致的实体中心推理,分析视频中的动态叙事,采用组成推理进展(CRP)框架逐步增加叙事复杂性。

现有的多模态大语言模型在叙事理解上存在哪些问题?

现有模型在视觉转变和时间动态中难以稳定追踪实体,常常在上下文变化中产生错误的身份。

NarrativeTrack的研究发现对叙事理解有什么启示?

研究揭示了感知基础与时间推理之间的基本权衡,表明叙事理解需要两者的整合。

NarrativeTrack如何帮助提升MLLMs的叙事理解能力?

它提供了一个系统框架,帮助诊断和推进时间基础的叙事理解。

NarrativeTrack与其他视频理解基准有什么不同?

NarrativeTrack专注于细致的实体推理,而其他基准往往局限于短片段或粗略的场景语义。

➡️

继续阅读