助力之手:一种物体感知的自我中心视频识别模型
原文中文,约400字,阅读约需1分钟。发表于: 。引入一种面向对象的解码器,通过提供手部位置、物体位置以及物体的语义标签的预测任务来增强模型的对象感知能力,以在自我中心视频中提高时空表示的性能。通过在几个下游视频文本检索和分类基准测试中进行强转移和使用学习到的表示来进行长期视频理解任务的输入,证明了我们模型学到的对象感知表示的性能优于现有技术水平,即使与使用更大批次大小进行训练的网络相比也是如此。通过使用嘈杂的图像级别检测作为伪标签进行训练...
本文介绍了一种面向对象的解码器,通过预测手部位置、物体位置和物体的语义标签来增强模型的对象感知能力,提高自我中心视频的时空表示性能。实验证明,该模型学到的对象感知表示在视频文本检索和分类任务中的性能优于现有技术水平,即使与使用更大批次大小进行训练的网络相比也是如此。通过使用嘈杂的图像级别检测作为伪标签进行训练,模型可以提供更好的边界框,并在关联文本描述中进行词的定位,从而通过视觉文本对齐来提高自我中心视频模型的性能。