利用 Transformer 进行无约束视频中的弱监督目标定位

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该研究提出了一种新的视频分类和定位方法,使用弱监督学习从视频级标签中定位对象,并通过使用伪标签进行训练来提高定位准确性。实验结果表明,该方法在YouTube-Objects无约束视频数据集上取得了最佳分类和定位的性能表现。

🎯

关键要点

  • 提出了一种新的基于变压器的视频分类和定位方法(TrCAM-V)。
  • 该方法使用弱监督学习从视频级标签中定位对象。
  • 通过使用伪标签进行训练来提高定位准确性。
  • 该方法采用DeiT骨干网络和两个头部(分类和定位)。
  • 在YouTube-Objects无约束视频数据集上实验后,取得了最佳分类和定位性能。
➡️

继续阅读