释放 CNN 和 Transformer 在平衡的 RGB - 事件视频识别中的力量
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
USTrack是一个统一的单阶段Transformer RGB-T跟踪网络,通过自注意机制将三个阶段统一到一个ViT主干中,并利用模态之间的相互作用提取融合特征,改善跟踪性能。在三个RGB-T跟踪基准上进行实验,USTrack在保持最快推理速度的同时,实现了新的最先进性能,特别是在VTUAV数据集的短期和长期子集上,MPR/MSR分别增加了11.1%和11.3%。
🎯
关键要点
- USTrack是一个统一的单阶段Transformer RGB-T跟踪网络。
- 通过自注意机制将三个阶段统一到一个ViT主干中。
- 利用模态之间的相互作用提取融合特征,增强目标与背景的区分度。
- 采用模态可靠性的特征选择机制改善跟踪性能。
- 在三个RGB-T跟踪基准上进行实验,USTrack实现了新的最先进性能。
- USTrack保持最快推理速度84.2FPS。
- 在VTUAV数据集的短期和长期子集上,MPR/MSR分别增加了11.1%和11.3%。
➡️