小红花·文摘

本文介绍了NavA3框架，旨在解决具身导航中的高层次指令理解与空间定位问题。该框架包括全局策略和局部策略，利用视觉语言模型解析指令并确定目标位置，随后通过NaviAfford模型实现精确导航。研究表明，NavA3在真实环境中的长时导航任务中表现优异，展现出强大的跨载体能力。