本研究提出了一种对比式一阶段变换器融合框架(COST),有效解决视觉-语言追踪算法中的分布偏差问题,提升了跨模态对齐和特征表示的一致性。实验结果表明,COST在多个数据集上表现优异。
完成下面两步后,将自动完成登录并继续当前操作。