本文设计了一个框架用于检测和预测视频中的人-物交互,提出了融合人类注视信息和视觉特征的时空变换器。研究了注视与深度学习的结合,开发了新模型Gazeformer和GHO-Diffusion,显著提升了图像字幕和人-物交互检测的性能,并通过实验验证了其在多个数据集上的有效性。
完成下面两步后,将自动完成登录并继续当前操作。