SLAck:语义、位置和外观感知的开放词汇跟踪

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该研究提出了一种新的多目标跟踪框架LG-MOT,结合语言和视觉特征,通过注释语言描述并用于训练,提高了跟踪性能。实验结果显示该方法在多个测试集上达到了最先进水平,并在舞蹈跟踪测试集上相对于基线方法有2.2%的增益。该方法还表现出良好的跨领域泛化能力。

🎯

关键要点

  • 提出了一种新的多目标跟踪框架LG-MOT,结合语言和视觉特征。
  • 在不同层次上利用语言信息,与标准视觉特征结合以获得判别性表示。
  • 通过注释现有MOT数据集中的场景和实例级语言描述,将语言信息编码到高维度嵌入中。
  • 在MOT17、DanceTrack和SportsMOT三个基准测试集上进行广泛实验,结果显示性能达到最先进水平。
  • 在舞蹈跟踪测试集上,相对于仅使用视觉特征的基线方法有2.2%的增益。
  • LG-MOT表现出良好的跨领域泛化能力。
➡️

继续阅读