小红花·文摘 - 小红花技术领袖俱乐部

本文介绍了NaVid，一个用于视觉与语言导航的新模型。NaVid通过视频输入和自然语言指令，在连续环境中导航，无需地图或深度信息。该模型结合预训练的视觉编码器和大型语言模型，实现高效的动作规划，展现出优越的泛化能力和鲁棒性，尤其在仿真到现实的应用中表现突出。

NaVid——基于单目RGB捕获的视频让VLM规划「连续环境中VLN」的下一步：无需地图/里程计/深度信息(含后续升级版Uni-NaVid的详解)

结构之法算法之道 ·

本文介绍了「七月在线」开发的NaVILA框架，旨在提升腿式机器人在视觉与语言导航中的能力。NaVILA将高级语言指令转化为中级动作，并结合低级运动策略，提高了导航效率。该框架利用真实视频数据训练，显著提升了机器人在复杂环境中的成功率，展现了广泛的应用潜力。

NaVILA——可语音交互的用于四足和人形导航与避障的VLA模型：在VLM的导航规划下，执行基于视觉的运动策略(含NaVILA和rsl_rl的源码解析)

结构之法算法之道 ·

本研究提出了RoomTour3D数据集，通过网络房间导览视频生成多样化的导航指令，显著提升了视觉与语言导航（VLN）任务的性能。

RoomTour3D: Geometric-Based Instruction Tuning for Immersive Navigation

BriefGPT - AI 论文速递 ·

本研究提出了一种新的SUSA架构，旨在解决智能体在未知环境中基于自然语言指令的视觉与语言导航（VLN）中的导航困难。该架构通过生成环境地标描述和构建深度探索地图，显著提升了导航性能。

Beyond RGB: The Journey of Agents Revealing Hybrid Semantic-Spatial Representations for Vision-and-Language Navigation

BriefGPT - AI 论文速递 ·

本研究提出NavAgent模型，旨在解决视觉与语言导航（VLN）在户外城市场景中的挑战。该模型通过动态场景拓扑图与图卷积网络整合多尺度环境信息，显著提升无人机在复杂城市环境中的导航能力。

NavAgent: Multi-Scale Urban Street View Fusion for UAV Embodied Vision-and-Language Navigation

BriefGPT - AI 论文速递 ·

本文探讨了视觉与语言导航（VLN）任务中的多模态对齐技术，提出了基于全注意力机制的架构、预训练模型和新训练范式LEO等多种方法，以提升导航性能。研究表明，这些方法在不同数据集上显著提高了成功率，推动了VLN技术的发展。

相信眼睛吗？利用视觉扰动增强视觉-语言导航

BriefGPT - AI 论文速递 ·