基于大型语言模型的多模态多样文本视觉语言跟踪基准
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本文通过引入自然语言表示提升多目标跟踪模型的泛化能力,提出视觉上下文提示和视觉-语言混合模块,生成实例级伪文字描述。在MOT17上训练并在MOT20上验证,显著提升了跟踪器的性能。
🎯
关键要点
- 引入自然语言表示以提高多目标跟踪模型的域泛化能力。
- 提出视觉上下文提示和视觉-语言混合模块。
- 生成实例级伪文字描述以适应不同跟踪场景。
- 在MOT17上进行训练,并在MOT20上进行验证。
- 该方法显著提升了基于查询的跟踪器的泛化性能。
➡️