本文介绍了一种面向对象的解码器,通过预测手部位置、物体位置和物体的语义标签来增强模型的对象感知能力,提高自我中心视频的时空表示性能。实验证明,该模型学到的对象感知表示在视频文本检索和分类任务中的性能优于现有技术水平,即使与使用更大批次大小进行训练的网络相比也是如此。通过使用嘈杂的图像级别检测作为伪标签进行训练,模型可以提供更好的边界框,并在关联文本描述中进行词的定位,从而通过视觉文本对齐来提高自我中心视频模型的性能。
完成下面两步后,将自动完成登录并继续当前操作。