释放 CNN 和 Transformer 在平衡的 RGB - 事件视频识别中的力量

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

USTrack是一个统一的单阶段Transformer RGB-T跟踪网络,通过自注意机制将三个阶段统一到一个ViT主干中,并利用模态之间的相互作用提取融合特征,改善跟踪性能。在三个RGB-T跟踪基准上进行实验,USTrack在保持最快推理速度的同时,实现了新的最先进性能,特别是在VTUAV数据集的短期和长期子集上,MPR/MSR分别增加了11.1%和11.3%。

🎯

关键要点

  • USTrack是一个统一的单阶段Transformer RGB-T跟踪网络。
  • 通过自注意机制将三个阶段统一到一个ViT主干中。
  • 利用模态之间的相互作用提取融合特征,增强目标与背景的区分度。
  • 采用模态可靠性的特征选择机制改善跟踪性能。
  • 在三个RGB-T跟踪基准上进行实验,USTrack实现了新的最先进性能。
  • USTrack保持最快推理速度84.2FPS。
  • 在VTUAV数据集的短期和长期子集上,MPR/MSR分别增加了11.1%和11.3%。
➡️

继续阅读