利用 Transformer 进行无约束视频中的弱监督目标定位
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该研究提出了一种新的视频分类和定位方法,使用弱监督学习从视频级标签中定位对象,并通过使用伪标签进行训练来提高定位准确性。实验结果表明,该方法在YouTube-Objects无约束视频数据集上取得了最佳分类和定位的性能表现。
🎯
关键要点
- 提出了一种新的基于变压器的视频分类和定位方法(TrCAM-V)。
- 该方法使用弱监督学习从视频级标签中定位对象。
- 通过使用伪标签进行训练来提高定位准确性。
- 该方法采用DeiT骨干网络和两个头部(分类和定位)。
- 在YouTube-Objects无约束视频数据集上实验后,取得了最佳分类和定位性能。
➡️