CorrectNav是一种视觉-语言-动作导航模型,通过自我修正机制提升导航性能。该方法关注感知和动作错误,采用四个步骤进行自我纠正。在VLN-CE基准测试中,CorrectNav的成功率分别为65.1%和69.3%,优于现有模型,具备强大的纠错和动态障碍物规避能力。
本研究提出了一种新的视频基础视觉-语言-动作模型Uni-NaVid,旨在克服现有导航模型的局限性,实现多种导航任务的无缝执行。实验结果表明,Uni-NaVid在多个基准测试中表现优异,具备良好的通用性。
本文介绍了一个新的数据集,用于改善机器人与人类之间的互动能力。通过使用多个现实图像中的可见物体来回应多方面的指令,解决了复杂任务的挑战。测试了多种最先进的视觉和语言导航模型,但没有取得令人满意的结果。提出了一种新颖的交互式导航-指针模型,为该任务提供了强有力的基线。该模型在未见测试集上表现最佳,但仍有改进空间。
完成下面两步后,将自动完成登录并继续当前操作。