BriefGPT - AI 论文速递 ·

从观察者注视中学习：基于人物 - 物体交互识别的零样本注意预测

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

本文设计了一个框架用于检测和预测视频中的人-物交互，提出了融合人类注视信息和视觉特征的时空变换器。研究了注视与深度学习的结合，开发了新模型Gazeformer和GHO-Diffusion，显著提升了图像字幕和人-物交互检测的性能，并通过实验验证了其在多个数据集上的有效性。

🎯

❓

Gazeformer模型是一种基于变压器的编码器-解码器架构，主要优势在于利用语义相似性进行Scanpath预测，表现优越且速度更快。

通过将人的注视信息集成到基于注意力的LSTM结构中，可以选择性地分配算法到注视和非注视的图像区域，从而提升图像字幕的性能。

GazeHOI数据集包含479个序列，平均持续时间为19.1秒，建模注视、手和物体的交互，具有独特性。

本文提出了基于人体姿态、注视和距离等因素的方法，并引入硬负样本采样策略来解决误分类问题。

GGNet模型通过快速的注视步骤和逐步的凝视步骤自适应地模拟操作感知点，聚合操作点特征以预测人-物交互，显著提升了协作体验。

上下文关注框架通过学习上下文感知特征，选择相关实例中心的上下文信息，以突出可能包含人-物交互的图像区域，从而提升检测效果。

🏷️