视觉语言模型用于解码新生儿复苏期间的医护人员关注点
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究提出了一种名为GEAN的视频字幕模型,利用人眼注视追踪数据来提高字幕生成任务的性能。该方法在多个字幕方法中具有领先的性能。
🎯
关键要点
- 本研究提出了一种名为GEAN的视频字幕模型。
- 该模型利用人眼注视追踪数据来提高视频字幕生成任务的性能。
- 研究探讨了如何利用人眼注视追踪信息定义注意力机制。
- 通过时空注意力生成句子,改善了多个字幕方法的性能。
- GEAN模型在VAS数据集和标准数据集(如LSMDC和Hollywood2)中实现了领先的性能。
➡️