Application of Contrastive One-Stage Transformer in Visual-Language Small Object Tracking
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种对比式一阶段变换器融合框架(COST),有效解决视觉-语言追踪算法中的分布偏差问题,提升了跨模态对齐和特征表示的一致性。实验结果表明,COST在多个数据集上表现优异。
🎯
关键要点
-
本研究提出了一种对比式一阶段变换器融合框架(COST)。
-
COST有效解决了视觉-语言追踪算法中的分布偏差问题。
-
该框架通过最大化视频与语言描述之间的互信息,实现跨模态对齐。
-
COST生成了语义一致的特征表示。
-
实验证明,COST在多个数据集上表现优异,包括五个现有VL追踪数据集和新提出的VL-SOT500数据集。
➡️