NarrativeBridge:以因果时态叙事增强视频字幕

💡 原文中文,约600字,阅读约需2分钟。
📝

内容提要

研究人员提出了NarrativeBridge,一种新的因果-时间叙述字幕基准和因果效应网络架构,以解决现有视频字幕基准和模型缺乏一致的因果-时间叙述表示的问题。实验结果表明,该框架在表达视频内容的因果和时间方面更准确。

🎯

关键要点

  • 现有的视频字幕基准和模型缺乏一致的因果-时间叙述表示。
  • NarrativeBridge是为了解决因果关系连接的事件序列问题而提出的。
  • 该框架通过大型语言模型生成新颖的因果-时间叙述字幕基准。
  • 框架明确编码视频描述中的因果效应时间关系,并通过自动评估确保字幕质量。
  • 因果效应网络架构(CEN)用于独立捕捉因果和效应动态。
  • 实验结果显示,CEN在表达视频内容的因果和时间方面比第二好的模型(GIT)更准确。
  • 在MSVD和MSR-VTT数据集上的CIDEr得分分别为17.88和17.44。
  • 该框架能够理解和生成复杂的因果-时间叙述结构的细致文本描述。
➡️

继续阅读