本文介绍了一种新的指代多目标跟踪(RMOT)任务,利用语言表达作为语义线索。作者构建了Refer-KITTI基准,并开发了TransRMOT架构,取得了优异的检测性能。此外,提出了Elysium多模态语言模型和EchoTrack模型,解决了视频中的物体跟踪问题,并建立了AR-MOT基准测试集。研究还提出了基于自然语言描述的3D视觉定位方法,贡献了STRefer和LifeRefer数据集,推动了自动驾驶和服务机器人的发展。
完成下面两步后,将自动完成登录并继续当前操作。