本文提出了一种新方法,通过有限状态机逐步学习未知环境的抽象模型,智能体利用该模型进行目标导航,研究表明此方法能提升导航性能。
本研究优化了机器人目标导航任务中的视觉语言前沿地图(VLFM),通过评估不同的视觉语言模型、目标检测器、分割模型以及多模态理解和视觉问答模块的效率和性能,提出了一个解决方案,在有限的VRAM桌面上取得了更高的成功率(+1.55%),并减少了视频内存的使用。研究结果揭示了在资源有限的环境中平衡模型性能和计算效率的洞见,并提出了有效的部署策略。
本论文提出了一种使用transformer递归更新隐式地图的目标导航方法,并通过辅助任务训练模型。该方法在MP3D数据集上优于最先进方法,在HM3D数据集上具有良好的泛化能力。成功在真实机器人上部署,并在真实场景中实现了令人鼓舞的目标导航结果。
该研究提出了一种新的室内导航方法,通过学习视觉表示将地图信息转移到代理的自我中心表示中。实验结果表明,该方法在目标导航和连续环境下都取得了较好的结果。
我们在多通道Swin-Unet架构的基础上,使用数据驱动的、基于模块的方法进行多任务学习,实现了有效的目标导航。该方法在穿越多个房间时展示了高效性,超过了基准模型平均10.6%的效率指标(SPL)。
本文介绍了视觉语言前沿地图(VLFM)的零样本导航方法,通过深度观测建立占用地图,并利用视觉语言模型生成基于语言的价值地图,以识别探索最有希望的前沿。VLFM 在对象目标导航任务中取得了最先进的结果,且具有零样本特性,可轻松部署在现实世界的机器人上。关键词:零样本导航、视觉语言前沿地图、深度观测、语言模型、目标导航
该论文提出了一种使用隐式空间地图的目标导航方法,通过transformer递归更新隐式地图,并通过辅助任务训练模型。该方法在挑战性的MP3D数据集上表现优于最先进方法,并在HM3D数据集上具有良好的泛化能力。研究人员成功地在真实机器人上部署了该模型,并只使用了几个真实世界的演示就实现了令人鼓舞的目标导航结果。
完成下面两步后,将自动完成登录并继续当前操作。