BriefGPT - AI 论文速递 ·

目标中心动作识别的同时检测和交互推理

💡 原文中文，约1300字，阅读约需3分钟。

📝

内容提要

本文提出了一种面向视频中长期动作预测的物体中心表示，利用视觉-语言预训练模型提取特定表示。通过双重注意力网络识别人-物交互，并在多个基准测试中验证了其有效性。该模型实现了动作的同时识别和弱空间时间定位，展现了良好的性能。

🎯

❓

物体中心表示是面向视频中长期动作预测的一种表示方法，通过视觉-语言预训练模型构建，提取任务特定的物体中心信息。

该模型采用基于Transformer的神经架构，通过双重注意力网络识别和预测人-物交互。

该模型在Ego4D、50Salads和EGTEA Gaze+基准测试中进行了广泛评估，验证了其有效性。

模型在Something-Something数据集上展现了良好的性能，并能够进行弱空间时间定位和可供性分割。

双重注意力网络模型能够同时识别人类与物体之间的动作，实现物体及动作的同时识别。

该研究提出了一种新的物体中心表示方法和双重注意力网络，推动了视频中长期动作预测的研究进展。

🏷️