小红花·文摘

本文设计了一个框架用于检测和预测视频中的人-物交互，提出了融合人类注视信息和视觉特征的时空变换器。研究了注视与深度学习的结合，开发了新模型Gazeformer和GHO-Diffusion，显著提升了图像字幕和人-物交互检测的性能，并通过实验验证了其在多个数据集上的有效性。