该研究提出了一种名为GEAN的视频字幕模型,利用人眼注视追踪数据提供时空注意力,提高视频字幕生成任务的性能。该方法在多个数据集中展示了领先的性能,成为最先进的视频字幕生成方法。
完成下面两步后,将自动完成登录并继续当前操作。