小红花·文摘

本文介绍了一种新的指代多目标跟踪（RMOT）任务，利用语言表达作为语义线索。作者构建了Refer-KITTI基准，并开发了TransRMOT架构，取得了优异的检测性能。此外，提出了Elysium多模态语言模型和EchoTrack模型，解决了视频中的物体跟踪问题，并建立了AR-MOT基准测试集。研究还提出了基于自然语言描述的3D视觉定位方法，贡献了STRefer和LifeRefer数据集，推动了自动驾驶和服务机器人的发展。