ViTGaze:视觉 Transformer 中的交互特征目光追踪
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究提出了一种名为GEAN的视频字幕模型,利用人眼注视追踪数据来提高字幕生成任务的性能。该方法在多个字幕方法中具有领先的性能,通过评估语言相似性指标和人工智能得到证明。
🎯
关键要点
- 本研究提出了一种名为GEAN的视频字幕模型。
- 该模型利用人眼注视追踪数据来提高视频字幕生成任务的性能。
- 研究评估了语言相似性指标和人工智能的效果。
- 人眼追踪数据指导的空间注意力改善了多个字幕方法的性能。
- GEAN模型在VAS数据集和标准数据集(如LSMDC和Hollywood2)中实现了领先的性能。
➡️