利用 Transformer 进行无约束视频中的弱监督目标定位
原文中文,约300字,阅读约需1分钟。发表于: 。提出了一种新的基于变压器的视频分类和定位方法(TrCAM-V),使用弱监督学习从视频级标签中定位对象,并通过使用伪标签进行训练来提高定位准确性。该方法通过 DeiT 骨干网络和两个头部(分类和定位)实现,在对 YouTube-Objects 无约束视频数据集上实验后,得到了新的最佳分类和定位的性能表现。
该研究提出了一种新的视频分类和定位方法,使用弱监督学习从视频级标签中定位对象,并通过使用伪标签进行训练来提高定位准确性。实验结果表明,该方法在YouTube-Objects无约束视频数据集上取得了最佳分类和定位的性能表现。