本研究提出了一种名为GEAN的视频字幕生成模型,利用人眼注视追踪数据提升字幕生成的时空注意力。实验结果显示,该模型在多个数据集上表现优异,成为先进的视频字幕生成方法。此外,研究探讨了基于人类凝视的深度学习模型在第一人称视角下的应用,展示了其在动作识别和视觉关注估计方面的优势。
本研究提出了一种名为GEAN的视频字幕生成模型,利用人眼注视追踪数据提升字幕生成性能。评估结果显示,该方法在空间注意力方面具有显著优势,改善了字幕生成效果。此外,研究探讨了人类注视与深度学习模型的关系,提出了新的注视辅助图像字幕模型,进一步提升了图像字幕性能。
完成下面两步后,将自动完成登录并继续当前操作。