本文研究了带文本描述的多目标跟踪(RMOT),提出了一种名为MEX的内存高效模块,显著提升了跟踪器性能,尤其在内存受限环境中。研究表明,该方法提高了HOTA跟踪得分,并优化了内存使用和处理速度。
本文介绍了一种新的指代多目标跟踪(RMOT)任务,利用语言表达作为语义线索。作者构建了Refer-KITTI基准,并开发了TransRMOT架构,取得了优异的检测性能。此外,提出了Elysium多模态语言模型和EchoTrack模型,解决了视频中的物体跟踪问题,并建立了AR-MOT基准测试集。研究还提出了基于自然语言描述的3D视觉定位方法,贡献了STRefer和LifeRefer数据集,推动了自动驾驶和服务机器人的发展。
完成下面两步后,将自动完成登录并继续当前操作。