小红花·文摘

CiteTracker是一种通过连接图像和文本来增强视觉跟踪的方法。它包括文本生成模块和动态描述模块，能够将目标图像转换为包含类别和属性信息的描述性文本，并适应目标变化以获得更有效的目标表示。通过基于注意力的相关模块将目标描述和搜索图像关联起来，生成用于目标状态参考的相关特征。实验证明，该方法在五个不同数据集上具有较好的性能。