助力之手:一种物体感知的自我中心视频识别模型
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文介绍了一种面向对象的解码器,通过预测手部位置、物体位置和物体的语义标签来增强模型的对象感知能力,提高自我中心视频的时空表示性能。实验证明,该模型学到的对象感知表示在视频文本检索和分类任务中的性能优于现有技术水平,即使与使用更大批次大小进行训练的网络相比也是如此。通过使用嘈杂的图像级别检测作为伪标签进行训练,模型可以提供更好的边界框,并在关联文本描述中进行词的定位,从而通过视觉文本对齐来提高自我中心视频模型的性能。
🎯
关键要点
- 引入一种面向对象的解码器,增强模型的对象感知能力。
- 通过预测手部位置、物体位置和物体的语义标签来提高自我中心视频的时空表示性能。
- 模型在视频文本检索和分类任务中的性能优于现有技术水平。
- 即使与使用更大批次大小进行训练的网络相比,模型表现依然优秀。
- 使用嘈杂的图像级别检测作为伪标签进行训练,提供更好的边界框。
- 模型能够在关联文本描述中进行词的定位,提升自我中心视频模型的性能。
- 通过视觉文本对齐,模型可以作为自我中心视频模型的替代品。
➡️