基于大型语言模型的多模态多样文本视觉语言跟踪基准

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文通过引入自然语言表示提升多目标跟踪模型的泛化能力,提出视觉上下文提示和视觉-语言混合模块,生成实例级伪文字描述。在MOT17上训练并在MOT20上验证,显著提升了跟踪器的性能。

🎯

关键要点

  • 引入自然语言表示以提高多目标跟踪模型的域泛化能力。
  • 提出视觉上下文提示和视觉-语言混合模块。
  • 生成实例级伪文字描述以适应不同跟踪场景。
  • 在MOT17上进行训练,并在MOT20上进行验证。
  • 该方法显著提升了基于查询的跟踪器的泛化性能。
➡️

继续阅读