检索增强的视觉第一人称视频字幕生成

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

EgoInstructor模型通过检索第三人称指导视频来增强第一人称视频的字幕生成,训练跨视角检索模块并使用EgoExoNCE损失函数对齐视频特征,实验证明在七个基准上表现出优越性能,显著改进第一人称视频字幕生成。

🎯

关键要点

  • 从第一人称视角的视频中理解人类行为面临重要挑战。
  • 提出了EgoInstructor模型,能够自动检索语义相关的第三人称指导视频。
  • EgoInstructor增强第一人称视频的字幕生成。
  • 通过自动配对不同规模的第一人称和第三人称数据集来训练跨视角检索模块。
  • 使用EgoExoNCE损失函数将视频特征与共享文本特征对齐。
  • 大量实验证明跨视角检索模块在七个基准上表现优越。
  • EgoInstructor在第一人称视频字幕生成方面展现显著改进。
➡️

继续阅读