小红花·文摘

本文提出了一种基于自然语言描述的目标跟踪方法，旨在提升跟踪性能的灵活性和准确性。通过构建带语言注释的大型数据库和引入视觉-语言模块，显著增强了多目标跟踪的泛化能力。研究设计了统一的跟踪器UVLTrack，能够处理多种参考设置，并在多个数据集上表现优异。此外，提出的新基准VLT-MI和E.T.基准为多模态跟踪和视频理解提供了新的评估方法和见解。