CiteTracker:用于视觉跟踪的图像和文本相关联

原文约300字,阅读约需1分钟。发表于:

我们提出了 CiteTracker,通过连接图像和文本来增强视觉跟踪中的目标建模和推断。我们开发了一个文本生成模块,将目标图像补丁转换为一个包含其类别和属性信息的描述性文本,为目标提供综合参考点。此外,设计了一个动态描述模块以适应目标变化,以获得更有效的目标表示。通过基于注意力的相关模块将目标描述和搜索图像关联起来,生成用于目标状态参考的相关特征。通过对五个不同数据集的广泛实验评估,我们证明了所提方法的有效性与现有方法相比具有较好的性能。

CiteTracker是一种通过连接图像和文本来增强视觉跟踪的方法。它包括文本生成模块和动态描述模块,能够将目标图像转换为包含类别和属性信息的描述性文本,并适应目标变化以获得更有效的目标表示。通过基于注意力的相关模块将目标描述和搜索图像关联起来,生成用于目标状态参考的相关特征。实验证明,该方法在五个不同数据集上具有较好的性能。

相关推荐 去reddit讨论