本文介绍了NaVid,一个用于视觉与语言导航的新模型。NaVid通过视频输入和自然语言指令,在连续环境中导航,无需地图或深度信息。该模型结合预训练的视觉编码器和大型语言模型,实现高效的动作规划,展现出优越的泛化能力和鲁棒性,尤其在仿真到现实的应用中表现突出。
本文介绍了「七月在线」开发的NaVILA框架,旨在提升腿式机器人在视觉与语言导航中的能力。NaVILA将高级语言指令转化为中级动作,并结合低级运动策略,提高了导航效率。该框架利用真实视频数据训练,显著提升了机器人在复杂环境中的成功率,展现了广泛的应用潜力。
本研究提出了RoomTour3D数据集,通过网络房间导览视频生成多样化的导航指令,显著提升了视觉与语言导航(VLN)任务的性能。
本研究提出了一种新的SUSA架构,旨在解决智能体在未知环境中基于自然语言指令的视觉与语言导航(VLN)中的导航困难。该架构通过生成环境地标描述和构建深度探索地图,显著提升了导航性能。
本研究提出NavAgent模型,旨在解决视觉与语言导航(VLN)在户外城市场景中的挑战。该模型通过动态场景拓扑图与图卷积网络整合多尺度环境信息,显著提升无人机在复杂城市环境中的导航能力。
本文探讨了视觉与语言导航(VLN)任务中的多模态对齐技术,提出了基于全注意力机制的架构、预训练模型和新训练范式LEO等多种方法,以提升导航性能。研究表明,这些方法在不同数据集上显著提高了成功率,推动了VLN技术的发展。
完成下面两步后,将自动完成登录并继续当前操作。