Apple Machine Learning Research ·

NarrativeTrack：超越画框评估视频语言模型

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

本文介绍了NarrativeTrack，这是评估多模态大语言模型（MLLMs）叙事理解的首个基准。该基准通过细致的实体中心推理，分析视频中的动态叙事。研究发现，现有模型在视觉转变和时间动态中难以稳定追踪实体，揭示了感知基础与时间推理之间的权衡。NarrativeTrack为提升MLLMs的时间基础叙事理解提供了系统框架。

🎯

关键要点

NarrativeTrack是评估多模态大语言模型（MLLMs）叙事理解的首个基准。
该基准通过细致的实体中心推理，分析视频中的动态叙事。
NarrativeTrack采用组成推理进展（CRP）框架，逐步增加叙事复杂性，考察实体的存在、变化和模糊性。
研究发现，现有模型在视觉转变和时间动态中难以稳定追踪实体，常常在上下文变化中产生错误的身份。
开源的通用MLLMs在感知基础上表现良好，但时间一致性较弱，而视频特定的MLLMs能够捕捉时间上下文，但在实体上下文上存在幻觉。
这些发现揭示了感知基础与时间推理之间的基本权衡，表明叙事理解只有通过两者的整合才能实现。
NarrativeTrack为提升MLLMs的时间基础叙事理解提供了系统框架。

🔎

延伸解读

NarrativeTrack的创新意义

NarrativeTrack作为首个评估多模态大语言模型叙事理解的基准，填补了现有研究中的空白。它通过细致的实体中心推理，提供了一个系统框架，帮助研究者更好地理解视频中的动态叙事。这种创新方法不仅提升了模型的评估标准，也为未来的研究指明了方向。

模型的局限性与挑战

研究表明，现有的多模态大语言模型在视觉转变和时间动态中难以稳定追踪实体，常常出现身份幻觉。这一发现揭示了感知基础与时间推理之间的权衡，提示研究者在开发新模型时需关注这两者的整合，以提升叙事理解的准确性。

未来研究的方向

NarrativeTrack的提出为多模态大语言模型的未来研究提供了新的视角。研究者可以基于该基准，探索如何更有效地整合时间推理与感知基础，从而推动叙事理解的进步。这将对视频理解领域的技术发展产生深远影响。

❓

延伸问答

什么是NarrativeTrack？

NarrativeTrack是评估多模态大语言模型（MLLMs）叙事理解的首个基准。

NarrativeTrack如何评估视频中的叙事理解？

它通过细致的实体中心推理，分析视频中的动态叙事，采用组成推理进展（CRP）框架逐步增加叙事复杂性。

现有的多模态大语言模型在叙事理解上存在哪些问题？

现有模型在视觉转变和时间动态中难以稳定追踪实体，常常在上下文变化中产生错误的身份。

NarrativeTrack的研究发现对叙事理解有什么启示？

研究揭示了感知基础与时间推理之间的基本权衡，表明叙事理解需要两者的整合。

NarrativeTrack如何帮助提升MLLMs的叙事理解能力？

它提供了一个系统框架，帮助诊断和推进时间基础的叙事理解。

NarrativeTrack与其他视频理解基准有什么不同？

NarrativeTrack专注于细致的实体推理，而其他基准往往局限于短片段或粗略的场景语义。

🏷️