本文介绍了一种新框架,通过时间变换器和VSGaze数据集,联合预测场景中所有人的凝视目标和社交凝视标签。GG-Transformer模型采用自适应扩张分区的自注意力机制和深度卷积层,有效建模长距离依赖性和局部信息。此外,研究探讨了人眼注视追踪在视频字幕生成中的应用,GEAN模型利用注视数据提升生成性能。
完成下面两步后,将自动完成登录并继续当前操作。