结构之法算法之道 ·

NavA3——双VLM架构下的先“推理解析”后“定位导航”：理解任意指令，导航至任意地点，查找任意目标

💡 原文中文，约6200字，阅读约需15分钟。

📝

内容提要

本文介绍了NavA3框架，旨在解决具身导航中的高层次指令理解与空间定位问题。该框架包括全局策略和局部策略，利用视觉语言模型解析指令并确定目标位置，随后通过NaviAfford模型实现精确导航。研究表明，NavA3在真实环境中的长时导航任务中表现优异，展现出强大的跨载体能力。

🎯

🔎

现实中的人类指令通常涉及复杂的意图和空间关系，这对具身导航系统提出了更高的要求。NavA3框架通过分层策略有效解决了这一问题，能够理解高层次指令并进行精准导航，展现出其在实际应用中的潜力。

NavA3框架将导航任务分为全局策略和局部策略两个阶段。全局策略负责解析指令并确定目标区域，而局部策略则在目标区域内进行精确定位。这种分层方法提升了导航效率，适应了复杂的真实环境。

NaviAfford模型通过学习空间可供性，实现了对目标物体的精准定位。该模型在训练过程中使用了大量的空间数据，能够理解复杂的空间关系，为具身导航提供了强大的支持，尤其在长时序导航任务中表现突出。

❓

NavA3框架旨在解决具身导航中的高层次指令理解与空间定位问题。

NavA3框架将导航任务分解为全局策略和局部策略两个阶段。

全局策略利用Reasoning-VLM解析高层指令并确定目标位置。

NaviAfford模型通过空间可供性理解，实现精确的目标物体定位。

NavA3在长时导航任务中表现优异，展现出强大的跨载体能力。

具身导航方法主要分为视觉-语言导航（VLN）和物体导航（ObjectNav）。

🏷️