小红花·文摘

本文介绍了一种新框架，通过时间变换器和VSGaze数据集，联合预测场景中所有人的凝视目标和社交凝视标签。GG-Transformer模型采用自适应扩张分区的自注意力机制和深度卷积层，有效建模长距离依赖性和局部信息。此外，研究探讨了人眼注视追踪在视频字幕生成中的应用，GEAN模型利用注视数据提升生成性能。