借助自然语言建模和坐标序列生成增强热红外跟踪
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文提出了一种联合多模态追踪框架,通过提示调制模块和统一目标解码模块实现了时间视觉模板和语言表达之间的补充性,并直接在搜索图像上执行整合的查询,以一步预测目标位置。实验证明该方法在追踪和地面连接方面具有竞争性能。
🎯
关键要点
- 通过自然语言规范(TNL)追踪是一种根据语言描述定位目标的方法。
- 提出了一种联合多模态追踪框架,结合了提示调制模块和统一目标解码模块。
- 该框架实现了时间视觉模板和语言表达之间的补充性。
- 直接在搜索图像上执行整合的查询,以一步预测目标位置。
- 在TNL2K、OTB-Lang、LaSOT和RefCOCOg上进行了大量实验,验证了方法的有效性。
- 该方法在追踪和地面连接方面与现有方法具有竞争性能。
➡️