该文章介绍了一种面向对象的解码器,通过预测手部位置、物体位置和物体的语义标签来增强模型的对象感知能力。实验证明,该模型学到的对象感知表示在视频理解任务中的性能优于现有技术水平。同时,通过使用嘈杂的图像级别检测作为伪标签进行训练,该模型可以提供更好的边界框,并在关联文本描述中进行词的定位,从而提高自我中心视频模型的性能。
完成下面两步后,将自动完成登录并继续当前操作。