本研究提出了一种基于自然语言描述和多模式视觉数据的大规模动态场景的3D视觉定位任务的方法,并提出了两个新的数据集STRefer和LifeRefer。该方法实现了最先进的性能,对于野外3D视觉定位的研究具有重要意义,并有着提升自动驾驶和服务机器人发展的巨大潜力。
完成下面两步后,将自动完成登录并继续当前操作。