释放 CNN 和 Transformer 在平衡的 RGB - 事件视频识别中的力量
原文中文,约300字,阅读约需1分钟。发表于: 。基于 RGB-Event 数据的模式识别是一个新兴的研究课题,本文提出了一种相对轻量级的 CNN-Transformer 模型 TSCFormer,该模型在全局和本地特征提取上取得了平衡,经过大规模实验证实了其有效性。
USTrack是一个统一的单阶段Transformer RGB-T跟踪网络,通过自注意机制将三个阶段统一到一个ViT主干中,并利用模态之间的相互作用提取融合特征,改善跟踪性能。在三个RGB-T跟踪基准上进行实验,USTrack在保持最快推理速度的同时,实现了新的最先进性能,特别是在VTUAV数据集的短期和长期子集上,MPR/MSR分别增加了11.1%和11.3%。