ViTGaze:视觉 Transformer 中的交互特征目光追踪

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究提出了一种名为GEAN的视频字幕模型,利用人眼注视追踪数据来提高字幕生成任务的性能。该方法在多个字幕方法中具有领先的性能,通过评估语言相似性指标和人工智能得到证明。

🎯

关键要点

  • 本研究提出了一种名为GEAN的视频字幕模型。
  • 该模型利用人眼注视追踪数据来提高视频字幕生成任务的性能。
  • 研究评估了语言相似性指标和人工智能的效果。
  • 人眼追踪数据指导的空间注意力改善了多个字幕方法的性能。
  • GEAN模型在VAS数据集和标准数据集(如LSMDC和Hollywood2)中实现了领先的性能。
➡️

继续阅读