本文提出了一种基于自然语言描述的目标跟踪方法,旨在提升跟踪性能的灵活性和准确性。通过构建带语言注释的大型数据库和引入视觉-语言模块,显著增强了多目标跟踪的泛化能力。研究设计了统一的跟踪器UVLTrack,能够处理多种参考设置,并在多个数据集上表现优异。此外,提出的新基准VLT-MI和E.T.基准为多模态跟踪和视频理解提供了新的评估方法和见解。
完成下面两步后,将自动完成登录并继续当前操作。