BriefGPT - AI 论文速递 ·

ViTGaze：视觉 Transformer 中的交互特征目光追踪

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

本文介绍了一种新框架，通过时间变换器和VSGaze数据集，联合预测场景中所有人的凝视目标和社交凝视标签。GG-Transformer模型采用自适应扩张分区的自注意力机制和深度卷积层，有效建模长距离依赖性和局部信息。此外，研究探讨了人眼注视追踪在视频字幕生成中的应用，GEAN模型利用注视数据提升生成性能。

🎯

关键要点

本文介绍了一种新的框架，通过时间变换器和VSGaze数据集，联合预测场景中所有人的凝视目标和社交凝视标签。
GG-Transformer模型采用自适应扩张分区的自注意力机制和深度卷积层，有效建模长距离依赖性和局部信息。
研究探讨了人眼注视追踪在视频字幕生成中的应用，GEAN模型利用注视数据提升生成性能。
GEAN模型通过人眼注视追踪数据提供时空注意力，改善了多个字幕生成方法的性能。

❓

延伸问答

ViTGaze框架的主要功能是什么？

ViTGaze框架通过时间变换器和VSGaze数据集，联合预测场景中所有人的凝视目标和社交凝视标签。

GG-Transformer模型的创新之处在哪里？

GG-Transformer模型采用自适应扩张分区的自注意力机制和深度卷积层，有效建模长距离依赖性和局部信息。

人眼注视追踪如何应用于视频字幕生成？

人眼注视追踪通过GEAN模型提供时空注意力，提升了视频字幕生成的性能。

VSGaze数据集的作用是什么？

VSGaze数据集用于训练模型，以实现多人凝视跟踪和社交凝视预测的最新成果。

GEAN模型如何改善字幕生成性能？

GEAN模型利用人眼注视追踪数据提供生成句子的时空注意力，从而改善多个字幕生成方法的性能。

GG-Transformer模型在视觉任务中的表现如何？

GG-Transformer模型在多个视觉任务和基准测试中表现出了优秀的性能。

🏷️